diff --git a/.gitattributes b/.gitattributes
index acd25ce27fe162b7c5d318bc882d7c3cc9d72f47..f0286abb17cb35216af217455cfeb0f29021bcd3 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -42,3 +42,18 @@ docs/results/submission_evidence/qwen_0_5b_1_5b_3b/reward_component_bars.png fil
 docs/results/submission_evidence_qwen_0_5b_1_5b/charts/generated/reward_component_bars.png filter=lfs diff=lfs merge=lfs -text
 docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/generated/reward_component_bars.png filter=lfs diff=lfs merge=lfs -text
 submission_bundle/qwen_completed_runs/charts/generated/reward_component_bars.png filter=lfs diff=lfs merge=lfs -text
+docs/UI[[:space:]]Images/1.jpeg filter=lfs diff=lfs merge=lfs -text
+docs/UI[[:space:]]Images/2.jpeg filter=lfs diff=lfs merge=lfs -text
+docs/UI[[:space:]]Images/3.jpeg filter=lfs diff=lfs merge=lfs -text
+docs/UI[[:space:]]Images/4.jpeg filter=lfs diff=lfs merge=lfs -text
+docs/UI[[:space:]]Images/5.jpeg filter=lfs diff=lfs merge=lfs -text
+docs/assets/diagrams/data_training_pipeline.png filter=lfs diff=lfs merge=lfs -text
+docs/assets/diagrams/deployment_topology.png filter=lfs diff=lfs merge=lfs -text
+docs/assets/diagrams/frontend_runtime_surface.png filter=lfs diff=lfs merge=lfs -text
+docs/assets/diagrams/multi_agent_orchestration.png filter=lfs diff=lfs merge=lfs -text
+docs/assets/diagrams/reward_decomposition.png filter=lfs diff=lfs merge=lfs -text
+docs/assets/diagrams/system_architecture.png filter=lfs diff=lfs merge=lfs -text
+docs/results/final_submission_evidence/charts/curated/reward_and_safety/reward_component_bars.png filter=lfs diff=lfs merge=lfs -text
+docs/results/final_submission_evidence/charts/curated/training/qwen_3b_grpo_reward_curve.png filter=lfs diff=lfs merge=lfs -text
+docs/results/final_submission_evidence/charts/frontpage/04_reward_components.png filter=lfs diff=lfs merge=lfs -text
+docs/results/final_submission_evidence/charts/frontpage/09_qwen_3b_grpo_reward_curve.png filter=lfs diff=lfs merge=lfs -text
diff --git a/.gitignore b/.gitignore
index f6d7266ef3d3acf505d07a97283a959c4e61a6b2..9a3292dac0a96204178664849df25bcfc85e7aa1 100644
--- a/.gitignore
+++ b/.gitignore
@@ -27,3 +27,5 @@ data/retrieval_index/*
 !data/**/.gitkeep
 app/ui/frontend/.vite/
 /demo.md
+docs/hf_blog_draft.md
+docs/submission_gap_review.md
diff --git a/Dockerfile b/Dockerfile
index 5b954253e295d3129761344a7bab37e1e70ed1e0..98d1116f0afd6bb4c961509d865c140dcae6e78d 100644
--- a/Dockerfile
+++ b/Dockerfile
@@ -1,6 +1,6 @@
-# Hugging Face Space: nginx on PORT (7860) + OpenEnv (8100) + API (8200) + Vite-built UI.
-# Build: docker build -t polyguard-space .
-# HF Spaces use this file by default when "Dockerfile path" is unset — keep this as the demo image.
+# Hugging Face Space: single-port edge (nginx) + OpenEnv (8100) + API (8200) + static UI.
+# Build from repository root: docker build -f Dockerfile.space -t polyguard-space .
+# Cheap tier: use Space "CPU basic"; first boot downloads ~1.1GB model bundle.
 
 FROM node:20-bookworm-slim AS frontend
 WORKDIR /build
diff --git a/Dockerfile.space b/Dockerfile.space
index 485e736bb5344914632242f09a77f4e61566c1f6..98d1116f0afd6bb4c961509d865c140dcae6e78d 100644
--- a/Dockerfile.space
+++ b/Dockerfile.space
@@ -1,5 +1,6 @@
-# Same image as ./Dockerfile — use this path in HF Space settings if "Dockerfile path"
-# must be explicit (e.g. Dockerfile.space). Keep in sync with Dockerfile.
+# Hugging Face Space: single-port edge (nginx) + OpenEnv (8100) + API (8200) + static UI.
+# Build from repository root: docker build -f Dockerfile.space -t polyguard-space .
+# Cheap tier: use Space "CPU basic"; first boot downloads ~1.1GB model bundle.
 
 FROM node:20-bookworm-slim AS frontend
 WORKDIR /build
diff --git a/README.md b/README.md
index 89f0c4b8357d9131143777a60672af480326b02b..204f8e9b9857fe98848a0b53f96d14b45cd3c96d 100644
--- a/README.md
+++ b/README.md
@@ -1,5 +1,5 @@
 ---
-title: PolyGuard OpenEnv
+title: PolyGuard OpenEnv Workbench
 colorFrom: blue
 colorTo: green
 sdk: docker
@@ -14,10 +14,20 @@ Run all CLI commands from this directory (`cd polyguard-rl`). The repository roo
 ## Submission Links
 
 - GitHub Repo URL: [https://github.com/Vishwa-docs/Meta_Pytorch_OpenEnv_Scaler_VK](https://github.com/Vishwa-docs/Meta_Pytorch_OpenEnv_Scaler_VK)
-- HF Space URL: [https://huggingface.co/spaces/TheJackBright/polyguard-openenv](https://huggingface.co/spaces/TheJackBright/polyguard-openenv)
+- HF Space URL: [https://huggingface.co/spaces/TheJackBright/polyguard-openenv-workbench](https://huggingface.co/spaces/TheJackBright/polyguard-openenv-workbench)
 - Colab Notebook URL: [https://colab.research.google.com/github/Vishwa-docs/Meta_Pytorch_OpenEnv_Scaler_VK/blob/master/polyguard-rl/PolyGuard_SFT_GRPO_One_Run_Runner.ipynb](https://colab.research.google.com/github/Vishwa-docs/Meta_Pytorch_OpenEnv_Scaler_VK/blob/master/polyguard-rl/PolyGuard_SFT_GRPO_One_Run_Runner.ipynb) (see also `notebooks/09_training_loop.ipynb` for a modular training walkthrough)
-- YouTube Video URL: not used for this submission; see Hugging Face Blog URL below.
-- Hugging Face Blog URL: [https://huggingface.co/blog/TheJackBright/polyguard-openenv](https://huggingface.co/blog/TheJackBright/polyguard-openenv) *(publish `docs/hf_blog_draft.md` or replace with a live story URL)*
+- YouTube Video URL: not used for this submission; the repository root README is the story artifact.
+- Story artifact: the repository root [`README.md`](../README.md) is the final blog-style narrative and evidence map.
+
+## Shared Environment, Logs, And Scripts
+
+The required environment files, training logs, and training scripts are shared
+in the repo and indexed in [Submission Artifact Index](docs/submission_artifacts.md).
+
+- Environment/runtime: `openenv.yaml`, `pyproject.toml`, `uv.lock`, `requirements*.txt`, `Dockerfile*`, `app/env/`, `server/app.py`, and `app/hf_space/Dockerfile`.
+- Training scripts/notebooks: `PolyGuard_SFT_GRPO_One_Run_Runner.ipynb`, `notebooks/09_training_loop.ipynb`, `scripts/train_sft_trl.py`, `scripts/train_grpo_trl.py`, `scripts/deploy_training_space.py`, `app/hf_space/training_runner.py`, and `app/training/`.
+- Training logs/results: `docs/results/final_submission_evidence/reports/`, `docs/results/sweeps/`, `docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/`, and `docs/results/qwen_completed_runs/reports/`.
+- Final downloadable artifact Space: [https://huggingface.co/spaces/adithya9903/polyguard-openenv-final-artifacts](https://huggingface.co/spaces/adithya9903/polyguard-openenv-final-artifacts).
 
 ## Problem Statement
 
@@ -41,8 +51,18 @@ Thirteen verifier-backed reward components roll up into four primary channels (`
 
 ## Training And Post-Training Strategy
 
-Build corpora (`scripts/bootstrap_data.py`, `scripts/build_training_corpus.py`), SFT with TRL (`scripts/train_sft_trl.py`), GRPO with environment reward (`scripts/train_grpo_trl.py`), merge adapters (`scripts/merge_adapters_safe.py`), validate inference (`scripts/test_inference_postsave.py`), evaluate and plot (`scripts/evaluate_*.py`, `docs/results/`). Optional HF GPU training: `scripts/deploy_training_space.py`. Full commands: repository root [`README.md`](../README.md) or `docs/training.md`.
+Build corpora (`scripts/bootstrap_data.py`, `scripts/build_training_corpus.py`), SFT with TRL (`scripts/train_sft_trl.py`), GRPO with environment reward (`scripts/train_grpo_trl.py`), merge adapters (`scripts/merge_adapters_safe.py`), validate inference (`scripts/test_inference_postsave.py`), evaluate and plot (`scripts/evaluate_*.py`, `docs/results/`). Optional HF GPU training uses `scripts/deploy_training_space.py`; public review should start with the repository root [`README.md`](../README.md), then `docs/training.md` for implementation notes.
 
 ## Documentation index
 
-- [Architecture](docs/architecture.md) · [Environment](docs/environment_design.md) · [Rewards](docs/reward_design.md) · [Training](docs/training.md) · [Evaluation](docs/evaluation.md) · [Deployment](docs/deployment.md) · [Datasets](docs/datasets.md) · [Participant guide traceability](docs/participant_guide_traceability.md) · [Idea doc vs implementation](docs/idea_document_traceability.md) · [**Space UI demo script**](docs/DEMO_RECORDING_SCRIPT.md)
+- [Architecture](docs/architecture.md)
+- [Environment](docs/environment_design.md)
+- [Rewards](docs/reward_design.md)
+- [Training](docs/training.md)
+- [Evaluation](docs/evaluation.md)
+- [Deployment](docs/deployment.md)
+- [Datasets](docs/datasets.md)
+- [Participant guide traceability](docs/participant_guide_traceability.md)
+- [Idea doc vs implementation](docs/idea_document_traceability.md)
+- [Submission artifact index](docs/submission_artifacts.md)
+- [**Space UI demo script**](docs/DEMO_RECORDING_SCRIPT.md)
diff --git a/README_HF_SPACE.md b/README_HF_SPACE.md
deleted file mode 100644
index 40afe389f19f24b8469e0d01ceb34e93bcabe752..0000000000000000000000000000000000000000
--- a/README_HF_SPACE.md
+++ /dev/null
@@ -1,12 +0,0 @@
----
-title: PolyGuard OpenEnv
-emoji: 🛡️
-colorFrom: blue
-colorTo: purple
-sdk: docker
-app_port: 7860
-pinned: false
-license: mit
----
-
-Full-stack **PolyGuard** workbench: OpenEnv (WebSocket), FastAPI, and React UI behind nginx on `PORT`. Uses **CPU basic**; first cold start downloads the public [usable model bundle](https://huggingface.co/TheJackBright/polyguard-openenv-training-full-artifacts/tree/main/usable_model_bundles/local-qwen-0-5b-active-smoke) (~1.1 GB). See `docker/space/README.md` for details.
diff --git a/app/ui/frontend/dist/assets/index-DV0STDGE.css b/app/ui/frontend/dist/assets/index-DV0STDGE.css
deleted file mode 100644
index 33bb75f3ca79eafffa3bb8d4ca4ba33df686d936..0000000000000000000000000000000000000000
--- a/app/ui/frontend/dist/assets/index-DV0STDGE.css
+++ /dev/null
@@ -1 +0,0 @@
-@import"https://fonts.googleapis.com/css2?family=IBM+Plex+Sans:wght@400;500;600;700&family=JetBrains+Mono:wght@500;700&family=Space+Grotesk:wght@500;600;700&display=swap";:root{--bg: #03030b;--surface: rgba(13, 16, 35, .62);--surface-2: rgba(19, 24, 51, .58);--surface-3: rgba(35, 26, 72, .68);--ink: #f6f7ff;--muted: #a6a9c8;--line: rgba(197, 187, 255, .22);--line-soft: rgba(189, 178, 255, .14);--accent: #9b7cff;--accent-2: #28e8ff;--accent-3: #ff4fd8;--warning: #d29922;--critical: #f85149;--glass: rgba(8, 11, 25, .58);--shadow: 0 24px 80px rgba(0, 0, 0, .42), inset 0 1px 0 rgba(255, 255, 255, .08);--glow: 0 0 34px rgba(155, 124, 255, .22), 0 0 64px rgba(40, 232, 255, .08);color-scheme:dark}*{box-sizing:border-box}html,body,#root{margin:0;min-height:100%;background:var(--bg);color:var(--ink);font-family:IBM Plex Sans,system-ui,-apple-system,BlinkMacSystemFont,Segoe UI,sans-serif}body{min-width:320px;overflow-x:hidden;background:radial-gradient(circle at 50% -10%,rgba(106,68,255,.28),transparent 34rem),radial-gradient(circle at 85% 12%,rgba(255,79,216,.12),transparent 30rem),#02020a}button,select,input{min-height:40px;border:1px solid var(--line);border-radius:14px;background:#080b1bc7;color:var(--ink);font:inherit}button{width:auto;padding:9px 14px;background:linear-gradient(180deg,rgba(255,255,255,.22),transparent),linear-gradient(135deg,var(--accent),var(--accent-2));border-color:transparent;color:#030414;font-weight:700;cursor:pointer;box-shadow:0 10px 30px #5b5cff52,inset 0 0 18px #ffffff2e;transition:background .14s ease,border-color .14s ease,box-shadow .14s ease,transform .12s ease}button:hover:not(:disabled){background:linear-gradient(180deg,rgba(255,255,255,.28),transparent),linear-gradient(135deg,#b49bff,#5ef5ff);box-shadow:0 14px 44px #28e8ff42,inset 0 0 22px #ffffff38;transform:translateY(-1px)}button.secondary,.mode-toggle button{background:#9b7cff1f;border-color:#9b7cff4d;color:var(--accent);box-shadow:inset 0 0 16px #bf97ff1f}button.secondary:hover:not(:disabled),.mode-toggle button:hover:not(:disabled){background:#9b7cff33}button:disabled{cursor:not-allowed;opacity:.48;transform:none}select,input{width:100%;padding:8px 11px;-webkit-backdrop-filter:blur(12px);backdrop-filter:blur(12px)}select{color-scheme:dark}select:focus,input:focus,button:focus{outline:2px solid rgba(40,232,255,.38);outline-offset:2px}pre{margin:0;max-height:260px;overflow:auto;font-family:JetBrains Mono,ui-monospace,SFMono-Regular,Menlo,Monaco,monospace;font-size:.76rem;line-height:1.55;white-space:pre-wrap;word-break:break-word}table{width:100%;border-collapse:collapse}th,td{padding:8px 10px;border-bottom:1px solid var(--line-soft);text-align:left;font-size:.84rem}.workbench-shell{position:relative;min-height:100vh;isolation:isolate;overflow:hidden;padding:20px;background:linear-gradient(180deg,#090b2338,#03030be0 44rem),var(--bg)}.workbench-container{position:relative;z-index:2;width:min(1440px,100%);margin:0 auto}.metaverse-backdrop{position:fixed;top:0;right:0;bottom:0;left:0;z-index:0;overflow:hidden;pointer-events:none}.blackhole-video{position:absolute;top:-32vh;left:50%;width:min(1300px,148vw);min-width:760px;height:74vh;opacity:.78;mix-blend-mode:screen;object-fit:cover;transform:translate(-50%) rotate(180deg);filter:saturate(1.18) contrast(1.08)}.stars-canvas{position:absolute;top:0;right:0;bottom:0;left:0;z-index:1;opacity:.86}.stars-canvas canvas{display:block}.nebula-orb{position:absolute;border-radius:999px;filter:blur(18px);mix-blend-mode:screen}.orb-one{right:-8rem;top:14rem;width:28rem;height:28rem;background:radial-gradient(circle,rgba(255,79,216,.24),transparent 68%)}.orb-two{left:-10rem;bottom:0;width:34rem;height:34rem;background:radial-gradient(circle,rgba(40,232,255,.18),transparent 70%)}.nebula-grid{position:absolute;top:0;right:0;bottom:0;left:0;background-image:linear-gradient(rgba(255,255,255,.035) 1px,transparent 1px),linear-gradient(90deg,rgba(255,255,255,.035) 1px,transparent 1px);background-size:72px 72px;-webkit-mask-image:linear-gradient(to bottom,transparent,black 18%,transparent 86%);mask-image:linear-gradient(to bottom,transparent,black 18%,transparent 86%);opacity:.36;transform:perspective(900px) rotateX(60deg) translateY(12rem);transform-origin:center bottom}.cosmic-vignette{position:absolute;top:0;right:0;bottom:0;left:0;z-index:2;background:radial-gradient(circle at 50% 0%,transparent 0,rgba(3,3,11,.1) 26rem,rgba(3,3,11,.86) 62rem),linear-gradient(180deg,#03030b0a,#03030be6 76%)}.metaverse-hero{position:relative;display:grid;grid-template-columns:minmax(0,1.3fr) minmax(300px,.72fr);align-items:end;gap:22px;margin:18px 0 14px;overflow:hidden;padding:28px}.metaverse-hero:before{content:"";position:absolute;top:-1px;right:-1px;bottom:-1px;left:-1px;z-index:-1;background:radial-gradient(circle at 16% 10%,rgba(155,124,255,.26),transparent 28rem),radial-gradient(circle at 80% 0%,rgba(40,232,255,.18),transparent 24rem)}.hero-copy{min-width:0}.welcome-box{display:inline-flex;align-items:center;width:max-content;max-width:100%;gap:9px;isolation:isolate;overflow:hidden;margin-bottom:18px;border:1px solid rgba(185,157,255,.45);border-radius:999px;padding:8px 12px;background:#712fff1a;box-shadow:inset 0 -7px 11px #a48fff1f,0 0 28px #9b7cff24;-webkit-backdrop-filter:blur(10px);backdrop-filter:blur(10px)}.spark-glyph,.welcome-text{color:var(--accent);font-size:.78rem;font-weight:900;letter-spacing:.12em;text-transform:uppercase}.welcome-text{background:linear-gradient(0deg,#ffffff6b,#ffffff6b),linear-gradient(90deg,#e59cff,#ba9cff 48%,#8ff6ff);-webkit-background-clip:text;background-clip:text;-webkit-text-fill-color:transparent}.metaverse-hero h2{max-width:900px;margin:0;color:var(--ink);font-family:Space Grotesk,IBM Plex Sans,system-ui,sans-serif;font-size:clamp(2.4rem,6vw,5.7rem);line-height:.92;letter-spacing:-.07em}.metaverse-hero h2 span{display:inline;background:linear-gradient(90deg,#b49bff,#5ef5ff 52%,#ff7ce7);-webkit-background-clip:text;background-clip:text;-webkit-text-fill-color:transparent}.metaverse-hero p{max-width:760px;margin:18px 0 0;color:#c5c8df;font-size:1rem;line-height:1.7}.hero-stat-grid{display:grid;grid-template-columns:repeat(2,minmax(0,1fr));gap:10px}.hero-stat-grid div{min-width:0;border:1px solid var(--line-soft);border-radius:18px;background:#090d1f8f;padding:14px;box-shadow:inset 0 1px #ffffff14;-webkit-backdrop-filter:blur(16px);backdrop-filter:blur(16px)}.hero-stat-grid span{display:block;color:var(--muted);font-size:.7rem;font-weight:900;letter-spacing:.08em;text-transform:uppercase}.hero-stat-grid strong{display:block;margin-top:7px;overflow:hidden;color:var(--ink);font-family:Space Grotesk,IBM Plex Sans,sans-serif;font-size:1.05rem;text-overflow:ellipsis;white-space:nowrap}.panel-surface,.panel{border:1px solid var(--line);border-radius:24px;background:var(--surface);box-shadow:var(--shadow);backdrop-filter:blur(22px) saturate(1.25);-webkit-backdrop-filter:blur(22px) saturate(1.25)}.topbar{display:grid;grid-template-columns:minmax(220px,1fr) auto auto minmax(320px,.9fr);align-items:center;gap:14px;padding:16px}.title-wrap{min-width:0}.title-wrap h1,.page h1{margin:0;color:var(--ink);font-family:Space Grotesk,IBM Plex Sans,sans-serif;font-size:1.5rem;line-height:1.1;font-weight:800;letter-spacing:-.04em}.title-wrap p,.muted{margin:4px 0 0;color:var(--muted);font-size:.88rem}.mode-toggle{display:grid;grid-template-columns:repeat(2,minmax(126px,1fr));gap:6px;padding:4px;border:1px solid var(--line);border-radius:18px;background:#050814b3;box-shadow:inset 0 0 24px #9b7cff14}.mode-toggle button{min-height:34px;padding:6px 10px;border-radius:14px;box-shadow:none}.mode-toggle button.active{background:linear-gradient(135deg,var(--accent),var(--accent-2));color:#030414;box-shadow:0 10px 28px #28e8ff2e}.topbar-status,.topbar-actions,.button-row{display:flex;align-items:center;justify-content:flex-end;flex-wrap:wrap;gap:8px}.topbar-actions{display:grid;grid-template-columns:minmax(170px,1fr) auto}.qtip-trigger{min-height:32px;padding:6px 11px}.status-chip,.panel-heading span,.med-card-header span{display:inline-flex;align-items:center;min-height:28px;border:1px solid var(--line);border-radius:999px;padding:4px 10px;background:#0c1023b8;color:var(--muted);font-size:.72rem;font-weight:800;letter-spacing:.04em;text-transform:uppercase;white-space:nowrap}.status-chip.live{border-color:#28e8ff70;background:#28e8ff1f;color:#78f6ff;box-shadow:0 0 18px #28e8ff24}.status-chip.idle{border-color:#9aa6b247}.advanced-strip{display:grid;grid-template-columns:minmax(160px,.4fr) minmax(260px,1fr);gap:12px;margin-top:12px;padding:14px}.model-truth{margin-top:12px;padding:14px}.model-truth.verified{border-color:#28e8ff80}.model-truth.unverified{border-color:#ffd35c70}.model-truth p{margin:0 0 12px;color:var(--muted);font-size:.88rem;line-height:1.5}.model-truth-grid{display:grid;grid-template-columns:repeat(4,minmax(0,1fr));gap:10px}.model-truth-grid div{min-width:0;border:1px solid var(--line-soft);border-radius:18px;background:var(--surface-2);padding:10px}.model-truth-grid span{color:var(--muted);font-size:.7rem;font-weight:800;letter-spacing:.05em;text-transform:uppercase}.model-truth-grid strong{display:block;margin-top:5px;color:var(--ink);font-size:.86rem;line-height:1.35;overflow-wrap:anywhere}.field{display:flex;min-width:0;flex-direction:column;gap:6px}.field span,.kpi-grid span,.action-detail-grid span,.compact-defs dt{color:var(--muted);font-size:.72rem;font-weight:800;letter-spacing:.05em;text-transform:uppercase}.workbench-layout{display:grid;grid-template-columns:minmax(320px,1.05fr) minmax(320px,.95fr);gap:16px;margin-top:16px;align-items:start}.panel-wide{grid-column:1 / -1}.panel-scroll{min-height:348px;padding:16px}.panel-heading{display:flex;align-items:center;justify-content:space-between;gap:10px;margin-bottom:12px}.inline-heading{margin-bottom:10px}.panel-heading h2,.panel h3,.history-grid h2{margin:0;color:#d8d6ff;font-family:Space Grotesk,IBM Plex Sans,sans-serif;font-size:.82rem;font-weight:800;letter-spacing:.08em;text-transform:uppercase}.panel-surface:not(.topbar,.advanced-strip,.metaverse-hero){padding:16px}.kpi-grid,.action-detail-grid{display:grid;grid-template-columns:repeat(4,minmax(120px,1fr));gap:10px}.kpi-grid div,.action-detail-grid div{min-width:0;min-height:72px;border:1px solid var(--line-soft);border-radius:18px;background:var(--surface-2);padding:12px;box-shadow:inset 0 1px #ffffff0f}.kpi-grid strong,.action-detail-grid strong,.compact-defs dd{display:block;margin-top:6px;color:var(--ink);font-family:Space Grotesk,IBM Plex Sans,sans-serif;font-size:.96rem;line-height:1.25;overflow-wrap:anywhere}.overview-lower{display:grid;grid-template-columns:1fr 1fr;gap:16px;margin-top:16px}.overview-lower h3{margin:0 0 8px;color:var(--muted);font-size:.78rem;letter-spacing:.05em;text-transform:uppercase}.compact-defs{display:grid;grid-template-columns:repeat(2,minmax(0,1fr));gap:8px;margin:0}.compact-defs div{min-width:0;border:1px solid var(--line-soft);border-radius:16px;background:#080c1d9e;padding:10px}.compact-defs dd{margin-left:0;font-size:.86rem}.candidate-list,.history-list,.reward-bars,.event-log{display:flex;flex-direction:column;gap:8px;max-height:292px;overflow:auto;padding-right:2px}.candidate-row{display:grid;grid-template-columns:minmax(150px,1fr) minmax(90px,.65fr) 64px;width:100%;min-height:58px;align-items:center;gap:8px;border-color:var(--line-soft);background:var(--surface-2);color:var(--ink);text-align:left;box-shadow:none}.candidate-row:hover:not(:disabled){border-color:#28e8ff52;background:var(--surface-3);box-shadow:inset 0 0 24px #28e8ff14}.candidate-row.selected{border-color:#28e8ffb8;background:linear-gradient(90deg,#28e8ff29,#9b7cff14),#0b1023b8;box-shadow:inset 3px 0 0 var(--accent-2),0 0 26px #28e8ff1a}.candidate-row.illegal{border-color:#ffd35c38;background:#221b317a;color:#f6f7ff94}.candidate-row.illegal strong{color:#f7d878}.candidate-row span{min-width:0;overflow:hidden;text-overflow:ellipsis;white-space:nowrap}.candidate-row strong{display:block;color:#90f8ff;font-size:.82rem}.action-console{min-height:348px}.action-detail-grid{grid-template-columns:repeat(2,minmax(0,1fr));margin-bottom:12px}.action-console .field{margin-bottom:10px}.console-notice{margin:0 0 12px;border:1px solid rgba(255,211,92,.34);border-radius:16px;background:#ffd35c1a;color:#f7d878;padding:10px 12px;font-size:.84rem;line-height:1.45}.console-notice strong{color:#fff4b8}.button-row{justify-content:flex-start}.reward-row{display:grid;grid-template-columns:minmax(150px,.9fr) minmax(110px,1fr) 56px;align-items:center;gap:8px;font-size:.8rem}.reward-row span{min-width:0;overflow:hidden;color:var(--muted);text-overflow:ellipsis;white-space:nowrap}.reward-row strong{color:var(--ink);font-family:JetBrains Mono,ui-monospace,monospace;font-size:.76rem;text-align:right}.reward-track{height:7px;overflow:hidden;border-radius:999px;background:#040712db}.reward-fill{height:100%;border-radius:inherit;background:linear-gradient(90deg,var(--accent-3),var(--accent),var(--accent-2));box-shadow:0 0 16px #28e8ff5c;transition:width .22s ease}.med-grid{display:grid;grid-template-columns:repeat(auto-fit,minmax(210px,1fr));gap:10px}.med-card{min-width:0;border:1px solid var(--line-soft);border-radius:18px;background:var(--surface-2);padding:12px;box-shadow:inset 0 1px #ffffff0f}.med-card.high-risk{border-color:#ff4fd86b;box-shadow:0 0 22px #ff4fd814,inset 0 1px #ffffff0f}.med-card-header{display:flex;align-items:center;justify-content:space-between;gap:8px}.med-card-header strong{min-width:0;overflow:hidden;color:var(--ink);text-overflow:ellipsis;white-space:nowrap}.med-card-header span{border-color:#ff4fd86b;background:#ff4fd81f;color:#ff9dea;font-size:.64rem}.med-card p,.med-meta{margin:6px 0 0;color:var(--muted);font-size:.84rem}.med-meta{display:flex;flex-wrap:wrap;gap:8px}.med-meta span{color:#8ff6ff}.history-grid{display:grid;grid-template-columns:1fr 1fr;gap:16px}.history-item,.event-log div{border:1px solid var(--line-soft);border-radius:16px;background:var(--surface-2);padding:10px 12px;color:var(--ink);font-size:.84rem;overflow-wrap:anywhere}.history-item strong{display:block;margin-bottom:4px}.history-item span{color:var(--muted)}.history-item.warning{border-color:#d2992252;color:#f0c36a}.detail-panel{min-height:220px}.event-panel{margin-bottom:22px}.event-log{max-height:210px;font-family:JetBrains Mono,ui-monospace,monospace}.error-banner{margin-bottom:10px;border:1px solid rgba(248,81,73,.36);border-radius:16px;background:#f851491f;color:#ff8b85;padding:10px 12px;font-weight:800}.qtip-overlay{position:fixed;top:0;right:0;bottom:0;left:0;z-index:1000;pointer-events:none}.qtip-dim{position:absolute;top:0;right:0;bottom:0;left:0;background:#03030bb8;-webkit-backdrop-filter:blur(4px);backdrop-filter:blur(4px);pointer-events:auto}.qtip-ring{position:fixed;z-index:1001;border:2px solid var(--accent-2);border-radius:20px;box-shadow:0 0 0 4px #28e8ff29,0 0 38px #28e8ff4d;pointer-events:none;transition:top .18s ease,left .18s ease,width .18s ease,height .18s ease}.qtip-card{position:fixed;top:var(--tip-top, 18px);left:var(--tip-left, 18px);z-index:1002;width:min(374px,calc(100vw - 28px));padding:18px;pointer-events:auto;animation:qtipIn .16s ease-out}.qtip-header{display:flex;align-items:center;justify-content:space-between;gap:12px;margin-bottom:10px}.qtip-header span,.qtip-header strong{color:var(--accent);font-size:.72rem;font-weight:900;letter-spacing:.08em;text-transform:uppercase}.qtip-card h2{margin:0 0 8px;color:var(--ink);font-size:1.05rem;letter-spacing:0}.qtip-card p{margin:0;color:var(--muted);font-size:.9rem;line-height:1.55}.qtip-actions{display:flex;justify-content:flex-end;gap:8px;margin-top:16px}@keyframes qtipIn{0%{opacity:0;transform:translateY(6px)}to{opacity:1;transform:translateY(0)}}.page{padding:20px}.grid,.grid-mini{display:grid;grid-template-columns:repeat(2,minmax(240px,1fr));gap:12px}.list{margin:0;padding-left:18px}.kpi{margin:0;font-size:1.6rem;font-weight:800}.hero-line{width:280px;max-width:100%;height:4px;margin:14px 0;border-radius:999px;background:linear-gradient(90deg,var(--accent),var(--accent-2))}.actions{display:flex;flex-wrap:wrap;gap:8px}@media (max-width: 1180px){.metaverse-hero{grid-template-columns:1fr}.topbar{grid-template-columns:1fr;align-items:stretch}.topbar-status,.topbar-actions{justify-content:flex-start}.workbench-layout,.overview-lower,.history-grid{grid-template-columns:1fr}.panel-wide{grid-column:auto}}@media (max-width: 760px){.workbench-shell{padding:10px}.blackhole-video{top:-20vh;min-width:620px;height:54vh}.metaverse-hero{margin-top:8px;padding:18px}.metaverse-hero h2{font-size:clamp(2rem,13vw,3.4rem);letter-spacing:-.055em}.hero-stat-grid{grid-template-columns:1fr}.topbar,.panel-surface:not(.topbar,.advanced-strip,.metaverse-hero),.advanced-strip{padding:12px}.mode-toggle,.topbar-actions,.advanced-strip,.model-truth-grid,.kpi-grid,.action-detail-grid,.compact-defs,.grid,.grid-mini{grid-template-columns:1fr}.topbar-actions button,.button-row button,.qtip-actions button{width:100%}.qtip-card{inset:auto 10px 14px 10px;width:auto}.qtip-actions{flex-direction:column}.qtip-ring{display:none}.candidate-row,.reward-row{grid-template-columns:1fr}.candidate-row span,.reward-row span{white-space:normal}.reward-row strong{text-align:left}.panel-scroll,.action-console,.detail-panel{min-height:auto}.candidate-list,.history-list,.reward-bars,.event-log{max-height:none}}::-webkit-scrollbar{width:7px;height:7px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{border-radius:999px;background:#9aa6b257}
diff --git a/app/ui/frontend/dist/assets/index-DgY-oaWG.js b/app/ui/frontend/dist/assets/index-DgY-oaWG.js
deleted file mode 100644
index 62266eb191e881e8a9716681cf7713e886a65d28..0000000000000000000000000000000000000000
--- a/app/ui/frontend/dist/assets/index-DgY-oaWG.js
+++ /dev/null
@@ -1,40 +0,0 @@
-(function(){const n=document.createElement("link").relList;if(n&&n.supports&&n.supports("modulepreload"))return;for(const l of document.querySelectorAll('link[rel="modulepreload"]'))r(l);new MutationObserver(l=>{for(const i of l)if(i.type==="childList")for(const o of i.addedNodes)o.tagName==="LINK"&&o.rel==="modulepreload"&&r(o)}).observe(document,{childList:!0,subtree:!0});function t(l){const i={};return l.integrity&&(i.integrity=l.integrity),l.referrerPolicy&&(i.referrerPolicy=l.referrerPolicy),l.crossOrigin==="use-credentials"?i.credentials="include":l.crossOrigin==="anonymous"?i.credentials="omit":i.credentials="same-origin",i}function r(l){if(l.ep)return;l.ep=!0;const i=t(l);fetch(l.href,i)}})();function ud(e){return e&&e.__esModule&&Object.prototype.hasOwnProperty.call(e,"default")?e.default:e}var Os={exports:{}},zl={},Is={exports:{}},M={};/**
- * @license React
- * react.production.min.js
- *
- * Copyright (c) Facebook, Inc. and its affiliates.
- *
- * This source code is licensed under the MIT license found in the
- * LICENSE file in the root directory of this source tree.
- */var xr=Symbol.for("react.element"),sd=Symbol.for("react.portal"),ad=Symbol.for("react.fragment"),cd=Symbol.for("react.strict_mode"),dd=Symbol.for("react.profiler"),fd=Symbol.for("react.provider"),pd=Symbol.for("react.context"),hd=Symbol.for("react.forward_ref"),md=Symbol.for("react.suspense"),vd=Symbol.for("react.memo"),gd=Symbol.for("react.lazy"),Su=Symbol.iterator;function yd(e){return e===null||typeof e!="object"?null:(e=Su&&e[Su]||e["@@iterator"],typeof e=="function"?e:null)}var Ds={isMounted:function(){return!1},enqueueForceUpdate:function(){},enqueueReplaceState:function(){},enqueueSetState:function(){}},Fs=Object.assign,As={};function jt(e,n,t){this.props=e,this.context=n,this.refs=As,this.updater=t||Ds}jt.prototype.isReactComponent={};jt.prototype.setState=function(e,n){if(typeof e!="object"&&typeof e!="function"&&e!=null)throw Error("setState(...): takes an object of state variables to update or a function which returns an object of state variables.");this.updater.enqueueSetState(this,e,n,"setState")};jt.prototype.forceUpdate=function(e){this.updater.enqueueForceUpdate(this,e,"forceUpdate")};function $s(){}$s.prototype=jt.prototype;function wo(e,n,t){this.props=e,this.context=n,this.refs=As,this.updater=t||Ds}var So=wo.prototype=new $s;So.constructor=wo;Fs(So,jt.prototype);So.isPureReactComponent=!0;var ku=Array.isArray,Us=Object.prototype.hasOwnProperty,ko={current:null},Bs={key:!0,ref:!0,__self:!0,__source:!0};function Qs(e,n,t){var r,l={},i=null,o=null;if(n!=null)for(r in n.ref!==void 0&&(o=n.ref),n.key!==void 0&&(i=""+n.key),n)Us.call(n,r)&&!Bs.hasOwnProperty(r)&&(l[r]=n[r]);var u=arguments.length-2;if(u===1)l.children=t;else if(1<u){for(var s=Array(u),d=0;d<u;d++)s[d]=arguments[d+2];l.children=s}if(e&&e.defaultProps)for(r in u=e.defaultProps,u)l[r]===void 0&&(l[r]=u[r]);return{$$typeof:xr,type:e,key:i,ref:o,props:l,_owner:ko.current}}function wd(e,n){return{$$typeof:xr,type:e.type,key:n,ref:e.ref,props:e.props,_owner:e._owner}}function xo(e){return typeof e=="object"&&e!==null&&e.$$typeof===xr}function Sd(e){var n={"=":"=0",":":"=2"};return"$"+e.replace(/[=:]/g,function(t){return n[t]})}var xu=/\/+/g;function Zl(e,n){return typeof e=="object"&&e!==null&&e.key!=null?Sd(""+e.key):n.toString(36)}function Yr(e,n,t,r,l){var i=typeof e;(i==="undefined"||i==="boolean")&&(e=null);var o=!1;if(e===null)o=!0;else switch(i){case"string":case"number":o=!0;break;case"object":switch(e.$$typeof){case xr:case sd:o=!0}}if(o)return o=e,l=l(o),e=r===""?"."+Zl(o,0):r,ku(l)?(t="",e!=null&&(t=e.replace(xu,"$&/")+"/"),Yr(l,n,t,"",function(d){return d})):l!=null&&(xo(l)&&(l=wd(l,t+(!l.key||o&&o.key===l.key?"":(""+l.key).replace(xu,"$&/")+"/")+e)),n.push(l)),1;if(o=0,r=r===""?".":r+":",ku(e))for(var u=0;u<e.length;u++){i=e[u];var s=r+Zl(i,u);o+=Yr(i,n,t,s,l)}else if(s=yd(e),typeof s=="function")for(e=s.call(e),u=0;!(i=e.next()).done;)i=i.value,s=r+Zl(i,u++),o+=Yr(i,n,t,s,l);else if(i==="object")throw n=String(e),Error("Objects are not valid as a React child (found: "+(n==="[object Object]"?"object with keys {"+Object.keys(e).join(", ")+"}":n)+"). If you meant to render a collection of children, use an array instead.");return o}function Rr(e,n,t){if(e==null)return e;var r=[],l=0;return Yr(e,r,"","",function(i){return n.call(t,i,l++)}),r}function kd(e){if(e._status===-1){var n=e._result;n=n(),n.then(function(t){(e._status===0||e._status===-1)&&(e._status=1,e._result=t)},function(t){(e._status===0||e._status===-1)&&(e._status=2,e._result=t)}),e._status===-1&&(e._status=0,e._result=n)}if(e._status===1)return e._result.default;throw e._result}var fe={current:null},Xr={transition:null},xd={ReactCurrentDispatcher:fe,ReactCurrentBatchConfig:Xr,ReactCurrentOwner:ko};function Ws(){throw Error("act(...) is not supported in production builds of React.")}M.Children={map:Rr,forEach:function(e,n,t){Rr(e,function(){n.apply(this,arguments)},t)},count:function(e){var n=0;return Rr(e,function(){n++}),n},toArray:function(e){return Rr(e,function(n){return n})||[]},only:function(e){if(!xo(e))throw Error("React.Children.only expected to receive a single React element child.");return e}};M.Component=jt;M.Fragment=ad;M.Profiler=dd;M.PureComponent=wo;M.StrictMode=cd;M.Suspense=md;M.__SECRET_INTERNALS_DO_NOT_USE_OR_YOU_WILL_BE_FIRED=xd;M.act=Ws;M.cloneElement=function(e,n,t){if(e==null)throw Error("React.cloneElement(...): The argument must be a React element, but you passed "+e+".");var r=Fs({},e.props),l=e.key,i=e.ref,o=e._owner;if(n!=null){if(n.ref!==void 0&&(i=n.ref,o=ko.current),n.key!==void 0&&(l=""+n.key),e.type&&e.type.defaultProps)var u=e.type.defaultProps;for(s in n)Us.call(n,s)&&!Bs.hasOwnProperty(s)&&(r[s]=n[s]===void 0&&u!==void 0?u[s]:n[s])}var s=arguments.length-2;if(s===1)r.children=t;else if(1<s){u=Array(s);for(var d=0;d<s;d++)u[d]=arguments[d+2];r.children=u}return{$$typeof:xr,type:e.type,key:l,ref:i,props:r,_owner:o}};M.createContext=function(e){return e={$$typeof:pd,_currentValue:e,_currentValue2:e,_threadCount:0,Provider:null,Consumer:null,_defaultValue:null,_globalName:null},e.Provider={$$typeof:fd,_context:e},e.Consumer=e};M.createElement=Qs;M.createFactory=function(e){var n=Qs.bind(null,e);return n.type=e,n};M.createRef=function(){return{current:null}};M.forwardRef=function(e){return{$$typeof:hd,render:e}};M.isValidElement=xo;M.lazy=function(e){return{$$typeof:gd,_payload:{_status:-1,_result:e},_init:kd}};M.memo=function(e,n){return{$$typeof:vd,type:e,compare:n===void 0?null:n}};M.startTransition=function(e){var n=Xr.transition;Xr.transition={};try{e()}finally{Xr.transition=n}};M.unstable_act=Ws;M.useCallback=function(e,n){return fe.current.useCallback(e,n)};M.useContext=function(e){return fe.current.useContext(e)};M.useDebugValue=function(){};M.useDeferredValue=function(e){return fe.current.useDeferredValue(e)};M.useEffect=function(e,n){return fe.current.useEffect(e,n)};M.useId=function(){return fe.current.useId()};M.useImperativeHandle=function(e,n,t){return fe.current.useImperativeHandle(e,n,t)};M.useInsertionEffect=function(e,n){return fe.current.useInsertionEffect(e,n)};M.useLayoutEffect=function(e,n){return fe.current.useLayoutEffect(e,n)};M.useMemo=function(e,n){return fe.current.useMemo(e,n)};M.useReducer=function(e,n,t){return fe.current.useReducer(e,n,t)};M.useRef=function(e){return fe.current.useRef(e)};M.useState=function(e){return fe.current.useState(e)};M.useSyncExternalStore=function(e,n,t){return fe.current.useSyncExternalStore(e,n,t)};M.useTransition=function(){return fe.current.useTransition()};M.version="18.3.1";Is.exports=M;var L=Is.exports;const _d=ud(L);/**
- * @license React
- * react-jsx-runtime.production.min.js
- *
- * Copyright (c) Facebook, Inc. and its affiliates.
- *
- * This source code is licensed under the MIT license found in the
- * LICENSE file in the root directory of this source tree.
- */var Ed=L,Nd=Symbol.for("react.element"),Cd=Symbol.for("react.fragment"),jd=Object.prototype.hasOwnProperty,Pd=Ed.__SECRET_INTERNALS_DO_NOT_USE_OR_YOU_WILL_BE_FIRED.ReactCurrentOwner,Td={key:!0,ref:!0,__self:!0,__source:!0};function Vs(e,n,t){var r,l={},i=null,o=null;t!==void 0&&(i=""+t),n.key!==void 0&&(i=""+n.key),n.ref!==void 0&&(o=n.ref);for(r in n)jd.call(n,r)&&!Td.hasOwnProperty(r)&&(l[r]=n[r]);if(e&&e.defaultProps)for(r in n=e.defaultProps,n)l[r]===void 0&&(l[r]=n[r]);return{$$typeof:Nd,type:e,key:i,ref:o,props:l,_owner:Pd.current}}zl.Fragment=Cd;zl.jsx=Vs;zl.jsxs=Vs;Os.exports=zl;var a=Os.exports,Ei={},Hs={exports:{}},je={},Ks={exports:{}},Gs={};/**
- * @license React
- * scheduler.production.min.js
- *
- * Copyright (c) Facebook, Inc. and its affiliates.
- *
- * This source code is licensed under the MIT license found in the
- * LICENSE file in the root directory of this source tree.
- */(function(e){function n(_,T){var R=_.length;_.push(T);e:for(;0<R;){var A=R-1>>>1,J=_[A];if(0<l(J,T))_[A]=T,_[R]=J,R=A;else break e}}function t(_){return _.length===0?null:_[0]}function r(_){if(_.length===0)return null;var T=_[0],R=_.pop();if(R!==T){_[0]=R;e:for(var A=0,J=_.length,cn=J>>>1;A<cn;){var De=2*(A+1)-1,Mn=_[De],qe=De+1,he=_[qe];if(0>l(Mn,R))qe<J&&0>l(he,Mn)?(_[A]=he,_[qe]=R,A=qe):(_[A]=Mn,_[De]=R,A=De);else if(qe<J&&0>l(he,R))_[A]=he,_[qe]=R,A=qe;else break e}}return T}function l(_,T){var R=_.sortIndex-T.sortIndex;return R!==0?R:_.id-T.id}if(typeof performance=="object"&&typeof performance.now=="function"){var i=performance;e.unstable_now=function(){return i.now()}}else{var o=Date,u=o.now();e.unstable_now=function(){return o.now()-u}}var s=[],d=[],v=1,h=null,m=3,w=!1,k=!1,S=!1,I=typeof setTimeout=="function"?setTimeout:null,f=typeof clearTimeout=="function"?clearTimeout:null,c=typeof setImmediate<"u"?setImmediate:null;typeof navigator<"u"&&navigator.scheduling!==void 0&&navigator.scheduling.isInputPending!==void 0&&navigator.scheduling.isInputPending.bind(navigator.scheduling);function p(_){for(var T=t(d);T!==null;){if(T.callback===null)r(d);else if(T.startTime<=_)r(d),T.sortIndex=T.expirationTime,n(s,T);else break;T=t(d)}}function g(_){if(S=!1,p(_),!k)if(t(s)!==null)k=!0,Lt(x);else{var T=t(d);T!==null&&Jn(g,T.startTime-_)}}function x(_,T){k=!1,S&&(S=!1,f(j),j=-1),w=!0;var R=m;try{for(p(T),h=t(s);h!==null&&(!(h.expirationTime>T)||_&&!ke());){var A=h.callback;if(typeof A=="function"){h.callback=null,m=h.priorityLevel;var J=A(h.expirationTime<=T);T=e.unstable_now(),typeof J=="function"?h.callback=J:h===t(s)&&r(s),p(T)}else r(s);h=t(s)}if(h!==null)var cn=!0;else{var De=t(d);De!==null&&Jn(g,De.startTime-T),cn=!1}return cn}finally{h=null,m=R,w=!1}}var C=!1,N=null,j=-1,Q=5,z=-1;function ke(){return!(e.unstable_now()-z<Q)}function Ln(){if(N!==null){var _=e.unstable_now();z=_;var T=!0;try{T=N(!0,_)}finally{T?Te():(C=!1,N=null)}}else C=!1}var Te;if(typeof c=="function")Te=function(){c(Ln)};else if(typeof MessageChannel<"u"){var jr=new MessageChannel,zt=jr.port2;jr.port1.onmessage=Ln,Te=function(){zt.postMessage(null)}}else Te=function(){I(Ln,0)};function Lt(_){N=_,C||(C=!0,Te())}function Jn(_,T){j=I(function(){_(e.unstable_now())},T)}e.unstable_IdlePriority=5,e.unstable_ImmediatePriority=1,e.unstable_LowPriority=4,e.unstable_NormalPriority=3,e.unstable_Profiling=null,e.unstable_UserBlockingPriority=2,e.unstable_cancelCallback=function(_){_.callback=null},e.unstable_continueExecution=function(){k||w||(k=!0,Lt(x))},e.unstable_forceFrameRate=function(_){0>_||125<_?console.error("forceFrameRate takes a positive int between 0 and 125, forcing frame rates higher than 125 fps is not supported"):Q=0<_?Math.floor(1e3/_):5},e.unstable_getCurrentPriorityLevel=function(){return m},e.unstable_getFirstCallbackNode=function(){return t(s)},e.unstable_next=function(_){switch(m){case 1:case 2:case 3:var T=3;break;default:T=m}var R=m;m=T;try{return _()}finally{m=R}},e.unstable_pauseExecution=function(){},e.unstable_requestPaint=function(){},e.unstable_runWithPriority=function(_,T){switch(_){case 1:case 2:case 3:case 4:case 5:break;default:_=3}var R=m;m=_;try{return T()}finally{m=R}},e.unstable_scheduleCallback=function(_,T,R){var A=e.unstable_now();switch(typeof R=="object"&&R!==null?(R=R.delay,R=typeof R=="number"&&0<R?A+R:A):R=A,_){case 1:var J=-1;break;case 2:J=250;break;case 5:J=1073741823;break;case 4:J=1e4;break;default:J=5e3}return J=R+J,_={id:v++,callback:T,priorityLevel:_,startTime:R,expirationTime:J,sortIndex:-1},R>A?(_.sortIndex=R,n(d,_),t(s)===null&&_===t(d)&&(S?(f(j),j=-1):S=!0,Jn(g,R-A))):(_.sortIndex=J,n(s,_),k||w||(k=!0,Lt(x))),_},e.unstable_shouldYield=ke,e.unstable_wrapCallback=function(_){var T=m;return function(){var R=m;m=T;try{return _.apply(this,arguments)}finally{m=R}}}})(Gs);Ks.exports=Gs;var Rd=Ks.exports;/**
- * @license React
- * react-dom.production.min.js
- *
- * Copyright (c) Facebook, Inc. and its affiliates.
- *
- * This source code is licensed under the MIT license found in the
- * LICENSE file in the root directory of this source tree.
- */var zd=L,Ce=Rd;function y(e){for(var n="https://reactjs.org/docs/error-decoder.html?invariant="+e,t=1;t<arguments.length;t++)n+="&args[]="+encodeURIComponent(arguments[t]);return"Minified React error #"+e+"; visit "+n+" for the full message or use the non-minified dev environment for full errors and additional helpful warnings."}var Ys=new Set,ir={};function Xn(e,n){St(e,n),St(e+"Capture",n)}function St(e,n){for(ir[e]=n,e=0;e<n.length;e++)Ys.add(n[e])}var ln=!(typeof window>"u"||typeof window.document>"u"||typeof window.document.createElement>"u"),Ni=Object.prototype.hasOwnProperty,Ld=/^[:A-Z_a-z\u00C0-\u00D6\u00D8-\u00F6\u00F8-\u02FF\u0370-\u037D\u037F-\u1FFF\u200C-\u200D\u2070-\u218F\u2C00-\u2FEF\u3001-\uD7FF\uF900-\uFDCF\uFDF0-\uFFFD][:A-Z_a-z\u00C0-\u00D6\u00D8-\u00F6\u00F8-\u02FF\u0370-\u037D\u037F-\u1FFF\u200C-\u200D\u2070-\u218F\u2C00-\u2FEF\u3001-\uD7FF\uF900-\uFDCF\uFDF0-\uFFFD\-.0-9\u00B7\u0300-\u036F\u203F-\u2040]*$/,_u={},Eu={};function Md(e){return Ni.call(Eu,e)?!0:Ni.call(_u,e)?!1:Ld.test(e)?Eu[e]=!0:(_u[e]=!0,!1)}function Od(e,n,t,r){if(t!==null&&t.type===0)return!1;switch(typeof n){case"function":case"symbol":return!0;case"boolean":return r?!1:t!==null?!t.acceptsBooleans:(e=e.toLowerCase().slice(0,5),e!=="data-"&&e!=="aria-");default:return!1}}function Id(e,n,t,r){if(n===null||typeof n>"u"||Od(e,n,t,r))return!0;if(r)return!1;if(t!==null)switch(t.type){case 3:return!n;case 4:return n===!1;case 5:return isNaN(n);case 6:return isNaN(n)||1>n}return!1}function pe(e,n,t,r,l,i,o){this.acceptsBooleans=n===2||n===3||n===4,this.attributeName=r,this.attributeNamespace=l,this.mustUseProperty=t,this.propertyName=e,this.type=n,this.sanitizeURL=i,this.removeEmptyString=o}var ie={};"children dangerouslySetInnerHTML defaultValue defaultChecked innerHTML suppressContentEditableWarning suppressHydrationWarning style".split(" ").forEach(function(e){ie[e]=new pe(e,0,!1,e,null,!1,!1)});[["acceptCharset","accept-charset"],["className","class"],["htmlFor","for"],["httpEquiv","http-equiv"]].forEach(function(e){var n=e[0];ie[n]=new pe(n,1,!1,e[1],null,!1,!1)});["contentEditable","draggable","spellCheck","value"].forEach(function(e){ie[e]=new pe(e,2,!1,e.toLowerCase(),null,!1,!1)});["autoReverse","externalResourcesRequired","focusable","preserveAlpha"].forEach(function(e){ie[e]=new pe(e,2,!1,e,null,!1,!1)});"allowFullScreen async autoFocus autoPlay controls default defer disabled disablePictureInPicture disableRemotePlayback formNoValidate hidden loop noModule noValidate open playsInline readOnly required reversed scoped seamless itemScope".split(" ").forEach(function(e){ie[e]=new pe(e,3,!1,e.toLowerCase(),null,!1,!1)});["checked","multiple","muted","selected"].forEach(function(e){ie[e]=new pe(e,3,!0,e,null,!1,!1)});["capture","download"].forEach(function(e){ie[e]=new pe(e,4,!1,e,null,!1,!1)});["cols","rows","size","span"].forEach(function(e){ie[e]=new pe(e,6,!1,e,null,!1,!1)});["rowSpan","start"].forEach(function(e){ie[e]=new pe(e,5,!1,e.toLowerCase(),null,!1,!1)});var _o=/[\-:]([a-z])/g;function Eo(e){return e[1].toUpperCase()}"accent-height alignment-baseline arabic-form baseline-shift cap-height clip-path clip-rule color-interpolation color-interpolation-filters color-profile color-rendering dominant-baseline enable-background fill-opacity fill-rule flood-color flood-opacity font-family font-size font-size-adjust font-stretch font-style font-variant font-weight glyph-name glyph-orientation-horizontal glyph-orientation-vertical horiz-adv-x horiz-origin-x image-rendering letter-spacing lighting-color marker-end marker-mid marker-start overline-position overline-thickness paint-order panose-1 pointer-events rendering-intent shape-rendering stop-color stop-opacity strikethrough-position strikethrough-thickness stroke-dasharray stroke-dashoffset stroke-linecap stroke-linejoin stroke-miterlimit stroke-opacity stroke-width text-anchor text-decoration text-rendering underline-position underline-thickness unicode-bidi unicode-range units-per-em v-alphabetic v-hanging v-ideographic v-mathematical vector-effect vert-adv-y vert-origin-x vert-origin-y word-spacing writing-mode xmlns:xlink x-height".split(" ").forEach(function(e){var n=e.replace(_o,Eo);ie[n]=new pe(n,1,!1,e,null,!1,!1)});"xlink:actuate xlink:arcrole xlink:role xlink:show xlink:title xlink:type".split(" ").forEach(function(e){var n=e.replace(_o,Eo);ie[n]=new pe(n,1,!1,e,"http://www.w3.org/1999/xlink",!1,!1)});["xml:base","xml:lang","xml:space"].forEach(function(e){var n=e.replace(_o,Eo);ie[n]=new pe(n,1,!1,e,"http://www.w3.org/XML/1998/namespace",!1,!1)});["tabIndex","crossOrigin"].forEach(function(e){ie[e]=new pe(e,1,!1,e.toLowerCase(),null,!1,!1)});ie.xlinkHref=new pe("xlinkHref",1,!1,"xlink:href","http://www.w3.org/1999/xlink",!0,!1);["src","href","action","formAction"].forEach(function(e){ie[e]=new pe(e,1,!1,e.toLowerCase(),null,!0,!0)});function No(e,n,t,r){var l=ie.hasOwnProperty(n)?ie[n]:null;(l!==null?l.type!==0:r||!(2<n.length)||n[0]!=="o"&&n[0]!=="O"||n[1]!=="n"&&n[1]!=="N")&&(Id(n,t,l,r)&&(t=null),r||l===null?Md(n)&&(t===null?e.removeAttribute(n):e.setAttribute(n,""+t)):l.mustUseProperty?e[l.propertyName]=t===null?l.type===3?!1:"":t:(n=l.attributeName,r=l.attributeNamespace,t===null?e.removeAttribute(n):(l=l.type,t=l===3||l===4&&t===!0?"":""+t,r?e.setAttributeNS(r,n,t):e.setAttribute(n,t))))}var an=zd.__SECRET_INTERNALS_DO_NOT_USE_OR_YOU_WILL_BE_FIRED,zr=Symbol.for("react.element"),tt=Symbol.for("react.portal"),rt=Symbol.for("react.fragment"),Co=Symbol.for("react.strict_mode"),Ci=Symbol.for("react.profiler"),Xs=Symbol.for("react.provider"),Zs=Symbol.for("react.context"),jo=Symbol.for("react.forward_ref"),ji=Symbol.for("react.suspense"),Pi=Symbol.for("react.suspense_list"),Po=Symbol.for("react.memo"),fn=Symbol.for("react.lazy"),Js=Symbol.for("react.offscreen"),Nu=Symbol.iterator;function At(e){return e===null||typeof e!="object"?null:(e=Nu&&e[Nu]||e["@@iterator"],typeof e=="function"?e:null)}var G=Object.assign,Jl;function Kt(e){if(Jl===void 0)try{throw Error()}catch(t){var n=t.stack.trim().match(/\n( *(at )?)/);Jl=n&&n[1]||""}return`
-`+Jl+e}var ql=!1;function bl(e,n){if(!e||ql)return"";ql=!0;var t=Error.prepareStackTrace;Error.prepareStackTrace=void 0;try{if(n)if(n=function(){throw Error()},Object.defineProperty(n.prototype,"props",{set:function(){throw Error()}}),typeof Reflect=="object"&&Reflect.construct){try{Reflect.construct(n,[])}catch(d){var r=d}Reflect.construct(e,[],n)}else{try{n.call()}catch(d){r=d}e.call(n.prototype)}else{try{throw Error()}catch(d){r=d}e()}}catch(d){if(d&&r&&typeof d.stack=="string"){for(var l=d.stack.split(`
-`),i=r.stack.split(`
-`),o=l.length-1,u=i.length-1;1<=o&&0<=u&&l[o]!==i[u];)u--;for(;1<=o&&0<=u;o--,u--)if(l[o]!==i[u]){if(o!==1||u!==1)do if(o--,u--,0>u||l[o]!==i[u]){var s=`
-`+l[o].replace(" at new "," at ");return e.displayName&&s.includes("<anonymous>")&&(s=s.replace("<anonymous>",e.displayName)),s}while(1<=o&&0<=u);break}}}finally{ql=!1,Error.prepareStackTrace=t}return(e=e?e.displayName||e.name:"")?Kt(e):""}function Dd(e){switch(e.tag){case 5:return Kt(e.type);case 16:return Kt("Lazy");case 13:return Kt("Suspense");case 19:return Kt("SuspenseList");case 0:case 2:case 15:return e=bl(e.type,!1),e;case 11:return e=bl(e.type.render,!1),e;case 1:return e=bl(e.type,!0),e;default:return""}}function Ti(e){if(e==null)return null;if(typeof e=="function")return e.displayName||e.name||null;if(typeof e=="string")return e;switch(e){case rt:return"Fragment";case tt:return"Portal";case Ci:return"Profiler";case Co:return"StrictMode";case ji:return"Suspense";case Pi:return"SuspenseList"}if(typeof e=="object")switch(e.$$typeof){case Zs:return(e.displayName||"Context")+".Consumer";case Xs:return(e._context.displayName||"Context")+".Provider";case jo:var n=e.render;return e=e.displayName,e||(e=n.displayName||n.name||"",e=e!==""?"ForwardRef("+e+")":"ForwardRef"),e;case Po:return n=e.displayName||null,n!==null?n:Ti(e.type)||"Memo";case fn:n=e._payload,e=e._init;try{return Ti(e(n))}catch{}}return null}function Fd(e){var n=e.type;switch(e.tag){case 24:return"Cache";case 9:return(n.displayName||"Context")+".Consumer";case 10:return(n._context.displayName||"Context")+".Provider";case 18:return"DehydratedFragment";case 11:return e=n.render,e=e.displayName||e.name||"",n.displayName||(e!==""?"ForwardRef("+e+")":"ForwardRef");case 7:return"Fragment";case 5:return n;case 4:return"Portal";case 3:return"Root";case 6:return"Text";case 16:return Ti(n);case 8:return n===Co?"StrictMode":"Mode";case 22:return"Offscreen";case 12:return"Profiler";case 21:return"Scope";case 13:return"Suspense";case 19:return"SuspenseList";case 25:return"TracingMarker";case 1:case 0:case 17:case 2:case 14:case 15:if(typeof n=="function")return n.displayName||n.name||null;if(typeof n=="string")return n}return null}function jn(e){switch(typeof e){case"boolean":case"number":case"string":case"undefined":return e;case"object":return e;default:return""}}function qs(e){var n=e.type;return(e=e.nodeName)&&e.toLowerCase()==="input"&&(n==="checkbox"||n==="radio")}function Ad(e){var n=qs(e)?"checked":"value",t=Object.getOwnPropertyDescriptor(e.constructor.prototype,n),r=""+e[n];if(!e.hasOwnProperty(n)&&typeof t<"u"&&typeof t.get=="function"&&typeof t.set=="function"){var l=t.get,i=t.set;return Object.defineProperty(e,n,{configurable:!0,get:function(){return l.call(this)},set:function(o){r=""+o,i.call(this,o)}}),Object.defineProperty(e,n,{enumerable:t.enumerable}),{getValue:function(){return r},setValue:function(o){r=""+o},stopTracking:function(){e._valueTracker=null,delete e[n]}}}}function Lr(e){e._valueTracker||(e._valueTracker=Ad(e))}function bs(e){if(!e)return!1;var n=e._valueTracker;if(!n)return!0;var t=n.getValue(),r="";return e&&(r=qs(e)?e.checked?"true":"false":e.value),e=r,e!==t?(n.setValue(e),!0):!1}function ol(e){if(e=e||(typeof document<"u"?document:void 0),typeof e>"u")return null;try{return e.activeElement||e.body}catch{return e.body}}function Ri(e,n){var t=n.checked;return G({},n,{defaultChecked:void 0,defaultValue:void 0,value:void 0,checked:t??e._wrapperState.initialChecked})}function Cu(e,n){var t=n.defaultValue==null?"":n.defaultValue,r=n.checked!=null?n.checked:n.defaultChecked;t=jn(n.value!=null?n.value:t),e._wrapperState={initialChecked:r,initialValue:t,controlled:n.type==="checkbox"||n.type==="radio"?n.checked!=null:n.value!=null}}function ea(e,n){n=n.checked,n!=null&&No(e,"checked",n,!1)}function zi(e,n){ea(e,n);var t=jn(n.value),r=n.type;if(t!=null)r==="number"?(t===0&&e.value===""||e.value!=t)&&(e.value=""+t):e.value!==""+t&&(e.value=""+t);else if(r==="submit"||r==="reset"){e.removeAttribute("value");return}n.hasOwnProperty("value")?Li(e,n.type,t):n.hasOwnProperty("defaultValue")&&Li(e,n.type,jn(n.defaultValue)),n.checked==null&&n.defaultChecked!=null&&(e.defaultChecked=!!n.defaultChecked)}function ju(e,n,t){if(n.hasOwnProperty("value")||n.hasOwnProperty("defaultValue")){var r=n.type;if(!(r!=="submit"&&r!=="reset"||n.value!==void 0&&n.value!==null))return;n=""+e._wrapperState.initialValue,t||n===e.value||(e.value=n),e.defaultValue=n}t=e.name,t!==""&&(e.name=""),e.defaultChecked=!!e._wrapperState.initialChecked,t!==""&&(e.name=t)}function Li(e,n,t){(n!=="number"||ol(e.ownerDocument)!==e)&&(t==null?e.defaultValue=""+e._wrapperState.initialValue:e.defaultValue!==""+t&&(e.defaultValue=""+t))}var Gt=Array.isArray;function ht(e,n,t,r){if(e=e.options,n){n={};for(var l=0;l<t.length;l++)n["$"+t[l]]=!0;for(t=0;t<e.length;t++)l=n.hasOwnProperty("$"+e[t].value),e[t].selected!==l&&(e[t].selected=l),l&&r&&(e[t].defaultSelected=!0)}else{for(t=""+jn(t),n=null,l=0;l<e.length;l++){if(e[l].value===t){e[l].selected=!0,r&&(e[l].defaultSelected=!0);return}n!==null||e[l].disabled||(n=e[l])}n!==null&&(n.selected=!0)}}function Mi(e,n){if(n.dangerouslySetInnerHTML!=null)throw Error(y(91));return G({},n,{value:void 0,defaultValue:void 0,children:""+e._wrapperState.initialValue})}function Pu(e,n){var t=n.value;if(t==null){if(t=n.children,n=n.defaultValue,t!=null){if(n!=null)throw Error(y(92));if(Gt(t)){if(1<t.length)throw Error(y(93));t=t[0]}n=t}n==null&&(n=""),t=n}e._wrapperState={initialValue:jn(t)}}function na(e,n){var t=jn(n.value),r=jn(n.defaultValue);t!=null&&(t=""+t,t!==e.value&&(e.value=t),n.defaultValue==null&&e.defaultValue!==t&&(e.defaultValue=t)),r!=null&&(e.defaultValue=""+r)}function Tu(e){var n=e.textContent;n===e._wrapperState.initialValue&&n!==""&&n!==null&&(e.value=n)}function ta(e){switch(e){case"svg":return"http://www.w3.org/2000/svg";case"math":return"http://www.w3.org/1998/Math/MathML";default:return"http://www.w3.org/1999/xhtml"}}function Oi(e,n){return e==null||e==="http://www.w3.org/1999/xhtml"?ta(n):e==="http://www.w3.org/2000/svg"&&n==="foreignObject"?"http://www.w3.org/1999/xhtml":e}var Mr,ra=function(e){return typeof MSApp<"u"&&MSApp.execUnsafeLocalFunction?function(n,t,r,l){MSApp.execUnsafeLocalFunction(function(){return e(n,t,r,l)})}:e}(function(e,n){if(e.namespaceURI!=="http://www.w3.org/2000/svg"||"innerHTML"in e)e.innerHTML=n;else{for(Mr=Mr||document.createElement("div"),Mr.innerHTML="<svg>"+n.valueOf().toString()+"</svg>",n=Mr.firstChild;e.firstChild;)e.removeChild(e.firstChild);for(;n.firstChild;)e.appendChild(n.firstChild)}});function or(e,n){if(n){var t=e.firstChild;if(t&&t===e.lastChild&&t.nodeType===3){t.nodeValue=n;return}}e.textContent=n}var Zt={animationIterationCount:!0,aspectRatio:!0,borderImageOutset:!0,borderImageSlice:!0,borderImageWidth:!0,boxFlex:!0,boxFlexGroup:!0,boxOrdinalGroup:!0,columnCount:!0,columns:!0,flex:!0,flexGrow:!0,flexPositive:!0,flexShrink:!0,flexNegative:!0,flexOrder:!0,gridArea:!0,gridRow:!0,gridRowEnd:!0,gridRowSpan:!0,gridRowStart:!0,gridColumn:!0,gridColumnEnd:!0,gridColumnSpan:!0,gridColumnStart:!0,fontWeight:!0,lineClamp:!0,lineHeight:!0,opacity:!0,order:!0,orphans:!0,tabSize:!0,widows:!0,zIndex:!0,zoom:!0,fillOpacity:!0,floodOpacity:!0,stopOpacity:!0,strokeDasharray:!0,strokeDashoffset:!0,strokeMiterlimit:!0,strokeOpacity:!0,strokeWidth:!0},$d=["Webkit","ms","Moz","O"];Object.keys(Zt).forEach(function(e){$d.forEach(function(n){n=n+e.charAt(0).toUpperCase()+e.substring(1),Zt[n]=Zt[e]})});function la(e,n,t){return n==null||typeof n=="boolean"||n===""?"":t||typeof n!="number"||n===0||Zt.hasOwnProperty(e)&&Zt[e]?(""+n).trim():n+"px"}function ia(e,n){e=e.style;for(var t in n)if(n.hasOwnProperty(t)){var r=t.indexOf("--")===0,l=la(t,n[t],r);t==="float"&&(t="cssFloat"),r?e.setProperty(t,l):e[t]=l}}var Ud=G({menuitem:!0},{area:!0,base:!0,br:!0,col:!0,embed:!0,hr:!0,img:!0,input:!0,keygen:!0,link:!0,meta:!0,param:!0,source:!0,track:!0,wbr:!0});function Ii(e,n){if(n){if(Ud[e]&&(n.children!=null||n.dangerouslySetInnerHTML!=null))throw Error(y(137,e));if(n.dangerouslySetInnerHTML!=null){if(n.children!=null)throw Error(y(60));if(typeof n.dangerouslySetInnerHTML!="object"||!("__html"in n.dangerouslySetInnerHTML))throw Error(y(61))}if(n.style!=null&&typeof n.style!="object")throw Error(y(62))}}function Di(e,n){if(e.indexOf("-")===-1)return typeof n.is=="string";switch(e){case"annotation-xml":case"color-profile":case"font-face":case"font-face-src":case"font-face-uri":case"font-face-format":case"font-face-name":case"missing-glyph":return!1;default:return!0}}var Fi=null;function To(e){return e=e.target||e.srcElement||window,e.correspondingUseElement&&(e=e.correspondingUseElement),e.nodeType===3?e.parentNode:e}var Ai=null,mt=null,vt=null;function Ru(e){if(e=Nr(e)){if(typeof Ai!="function")throw Error(y(280));var n=e.stateNode;n&&(n=Dl(n),Ai(e.stateNode,e.type,n))}}function oa(e){mt?vt?vt.push(e):vt=[e]:mt=e}function ua(){if(mt){var e=mt,n=vt;if(vt=mt=null,Ru(e),n)for(e=0;e<n.length;e++)Ru(n[e])}}function sa(e,n){return e(n)}function aa(){}var ei=!1;function ca(e,n,t){if(ei)return e(n,t);ei=!0;try{return sa(e,n,t)}finally{ei=!1,(mt!==null||vt!==null)&&(aa(),ua())}}function ur(e,n){var t=e.stateNode;if(t===null)return null;var r=Dl(t);if(r===null)return null;t=r[n];e:switch(n){case"onClick":case"onClickCapture":case"onDoubleClick":case"onDoubleClickCapture":case"onMouseDown":case"onMouseDownCapture":case"onMouseMove":case"onMouseMoveCapture":case"onMouseUp":case"onMouseUpCapture":case"onMouseEnter":(r=!r.disabled)||(e=e.type,r=!(e==="button"||e==="input"||e==="select"||e==="textarea")),e=!r;break e;default:e=!1}if(e)return null;if(t&&typeof t!="function")throw Error(y(231,n,typeof t));return t}var $i=!1;if(ln)try{var $t={};Object.defineProperty($t,"passive",{get:function(){$i=!0}}),window.addEventListener("test",$t,$t),window.removeEventListener("test",$t,$t)}catch{$i=!1}function Bd(e,n,t,r,l,i,o,u,s){var d=Array.prototype.slice.call(arguments,3);try{n.apply(t,d)}catch(v){this.onError(v)}}var Jt=!1,ul=null,sl=!1,Ui=null,Qd={onError:function(e){Jt=!0,ul=e}};function Wd(e,n,t,r,l,i,o,u,s){Jt=!1,ul=null,Bd.apply(Qd,arguments)}function Vd(e,n,t,r,l,i,o,u,s){if(Wd.apply(this,arguments),Jt){if(Jt){var d=ul;Jt=!1,ul=null}else throw Error(y(198));sl||(sl=!0,Ui=d)}}function Zn(e){var n=e,t=e;if(e.alternate)for(;n.return;)n=n.return;else{e=n;do n=e,n.flags&4098&&(t=n.return),e=n.return;while(e)}return n.tag===3?t:null}function da(e){if(e.tag===13){var n=e.memoizedState;if(n===null&&(e=e.alternate,e!==null&&(n=e.memoizedState)),n!==null)return n.dehydrated}return null}function zu(e){if(Zn(e)!==e)throw Error(y(188))}function Hd(e){var n=e.alternate;if(!n){if(n=Zn(e),n===null)throw Error(y(188));return n!==e?null:e}for(var t=e,r=n;;){var l=t.return;if(l===null)break;var i=l.alternate;if(i===null){if(r=l.return,r!==null){t=r;continue}break}if(l.child===i.child){for(i=l.child;i;){if(i===t)return zu(l),e;if(i===r)return zu(l),n;i=i.sibling}throw Error(y(188))}if(t.return!==r.return)t=l,r=i;else{for(var o=!1,u=l.child;u;){if(u===t){o=!0,t=l,r=i;break}if(u===r){o=!0,r=l,t=i;break}u=u.sibling}if(!o){for(u=i.child;u;){if(u===t){o=!0,t=i,r=l;break}if(u===r){o=!0,r=i,t=l;break}u=u.sibling}if(!o)throw Error(y(189))}}if(t.alternate!==r)throw Error(y(190))}if(t.tag!==3)throw Error(y(188));return t.stateNode.current===t?e:n}function fa(e){return e=Hd(e),e!==null?pa(e):null}function pa(e){if(e.tag===5||e.tag===6)return e;for(e=e.child;e!==null;){var n=pa(e);if(n!==null)return n;e=e.sibling}return null}var ha=Ce.unstable_scheduleCallback,Lu=Ce.unstable_cancelCallback,Kd=Ce.unstable_shouldYield,Gd=Ce.unstable_requestPaint,X=Ce.unstable_now,Yd=Ce.unstable_getCurrentPriorityLevel,Ro=Ce.unstable_ImmediatePriority,ma=Ce.unstable_UserBlockingPriority,al=Ce.unstable_NormalPriority,Xd=Ce.unstable_LowPriority,va=Ce.unstable_IdlePriority,Ll=null,Xe=null;function Zd(e){if(Xe&&typeof Xe.onCommitFiberRoot=="function")try{Xe.onCommitFiberRoot(Ll,e,void 0,(e.current.flags&128)===128)}catch{}}var Qe=Math.clz32?Math.clz32:bd,Jd=Math.log,qd=Math.LN2;function bd(e){return e>>>=0,e===0?32:31-(Jd(e)/qd|0)|0}var Or=64,Ir=4194304;function Yt(e){switch(e&-e){case 1:return 1;case 2:return 2;case 4:return 4;case 8:return 8;case 16:return 16;case 32:return 32;case 64:case 128:case 256:case 512:case 1024:case 2048:case 4096:case 8192:case 16384:case 32768:case 65536:case 131072:case 262144:case 524288:case 1048576:case 2097152:return e&4194240;case 4194304:case 8388608:case 16777216:case 33554432:case 67108864:return e&130023424;case 134217728:return 134217728;case 268435456:return 268435456;case 536870912:return 536870912;case 1073741824:return 1073741824;default:return e}}function cl(e,n){var t=e.pendingLanes;if(t===0)return 0;var r=0,l=e.suspendedLanes,i=e.pingedLanes,o=t&268435455;if(o!==0){var u=o&~l;u!==0?r=Yt(u):(i&=o,i!==0&&(r=Yt(i)))}else o=t&~l,o!==0?r=Yt(o):i!==0&&(r=Yt(i));if(r===0)return 0;if(n!==0&&n!==r&&!(n&l)&&(l=r&-r,i=n&-n,l>=i||l===16&&(i&4194240)!==0))return n;if(r&4&&(r|=t&16),n=e.entangledLanes,n!==0)for(e=e.entanglements,n&=r;0<n;)t=31-Qe(n),l=1<<t,r|=e[t],n&=~l;return r}function ef(e,n){switch(e){case 1:case 2:case 4:return n+250;case 8:case 16:case 32:case 64:case 128:case 256:case 512:case 1024:case 2048:case 4096:case 8192:case 16384:case 32768:case 65536:case 131072:case 262144:case 524288:case 1048576:case 2097152:return n+5e3;case 4194304:case 8388608:case 16777216:case 33554432:case 67108864:return-1;case 134217728:case 268435456:case 536870912:case 1073741824:return-1;default:return-1}}function nf(e,n){for(var t=e.suspendedLanes,r=e.pingedLanes,l=e.expirationTimes,i=e.pendingLanes;0<i;){var o=31-Qe(i),u=1<<o,s=l[o];s===-1?(!(u&t)||u&r)&&(l[o]=ef(u,n)):s<=n&&(e.expiredLanes|=u),i&=~u}}function Bi(e){return e=e.pendingLanes&-1073741825,e!==0?e:e&1073741824?1073741824:0}function ga(){var e=Or;return Or<<=1,!(Or&4194240)&&(Or=64),e}function ni(e){for(var n=[],t=0;31>t;t++)n.push(e);return n}function _r(e,n,t){e.pendingLanes|=n,n!==536870912&&(e.suspendedLanes=0,e.pingedLanes=0),e=e.eventTimes,n=31-Qe(n),e[n]=t}function tf(e,n){var t=e.pendingLanes&~n;e.pendingLanes=n,e.suspendedLanes=0,e.pingedLanes=0,e.expiredLanes&=n,e.mutableReadLanes&=n,e.entangledLanes&=n,n=e.entanglements;var r=e.eventTimes;for(e=e.expirationTimes;0<t;){var l=31-Qe(t),i=1<<l;n[l]=0,r[l]=-1,e[l]=-1,t&=~i}}function zo(e,n){var t=e.entangledLanes|=n;for(e=e.entanglements;t;){var r=31-Qe(t),l=1<<r;l&n|e[r]&n&&(e[r]|=n),t&=~l}}var D=0;function ya(e){return e&=-e,1<e?4<e?e&268435455?16:536870912:4:1}var wa,Lo,Sa,ka,xa,Qi=!1,Dr=[],yn=null,wn=null,Sn=null,sr=new Map,ar=new Map,hn=[],rf="mousedown mouseup touchcancel touchend touchstart auxclick dblclick pointercancel pointerdown pointerup dragend dragstart drop compositionend compositionstart keydown keypress keyup input textInput copy cut paste click change contextmenu reset submit".split(" ");function Mu(e,n){switch(e){case"focusin":case"focusout":yn=null;break;case"dragenter":case"dragleave":wn=null;break;case"mouseover":case"mouseout":Sn=null;break;case"pointerover":case"pointerout":sr.delete(n.pointerId);break;case"gotpointercapture":case"lostpointercapture":ar.delete(n.pointerId)}}function Ut(e,n,t,r,l,i){return e===null||e.nativeEvent!==i?(e={blockedOn:n,domEventName:t,eventSystemFlags:r,nativeEvent:i,targetContainers:[l]},n!==null&&(n=Nr(n),n!==null&&Lo(n)),e):(e.eventSystemFlags|=r,n=e.targetContainers,l!==null&&n.indexOf(l)===-1&&n.push(l),e)}function lf(e,n,t,r,l){switch(n){case"focusin":return yn=Ut(yn,e,n,t,r,l),!0;case"dragenter":return wn=Ut(wn,e,n,t,r,l),!0;case"mouseover":return Sn=Ut(Sn,e,n,t,r,l),!0;case"pointerover":var i=l.pointerId;return sr.set(i,Ut(sr.get(i)||null,e,n,t,r,l)),!0;case"gotpointercapture":return i=l.pointerId,ar.set(i,Ut(ar.get(i)||null,e,n,t,r,l)),!0}return!1}function _a(e){var n=An(e.target);if(n!==null){var t=Zn(n);if(t!==null){if(n=t.tag,n===13){if(n=da(t),n!==null){e.blockedOn=n,xa(e.priority,function(){Sa(t)});return}}else if(n===3&&t.stateNode.current.memoizedState.isDehydrated){e.blockedOn=t.tag===3?t.stateNode.containerInfo:null;return}}}e.blockedOn=null}function Zr(e){if(e.blockedOn!==null)return!1;for(var n=e.targetContainers;0<n.length;){var t=Wi(e.domEventName,e.eventSystemFlags,n[0],e.nativeEvent);if(t===null){t=e.nativeEvent;var r=new t.constructor(t.type,t);Fi=r,t.target.dispatchEvent(r),Fi=null}else return n=Nr(t),n!==null&&Lo(n),e.blockedOn=t,!1;n.shift()}return!0}function Ou(e,n,t){Zr(e)&&t.delete(n)}function of(){Qi=!1,yn!==null&&Zr(yn)&&(yn=null),wn!==null&&Zr(wn)&&(wn=null),Sn!==null&&Zr(Sn)&&(Sn=null),sr.forEach(Ou),ar.forEach(Ou)}function Bt(e,n){e.blockedOn===n&&(e.blockedOn=null,Qi||(Qi=!0,Ce.unstable_scheduleCallback(Ce.unstable_NormalPriority,of)))}function cr(e){function n(l){return Bt(l,e)}if(0<Dr.length){Bt(Dr[0],e);for(var t=1;t<Dr.length;t++){var r=Dr[t];r.blockedOn===e&&(r.blockedOn=null)}}for(yn!==null&&Bt(yn,e),wn!==null&&Bt(wn,e),Sn!==null&&Bt(Sn,e),sr.forEach(n),ar.forEach(n),t=0;t<hn.length;t++)r=hn[t],r.blockedOn===e&&(r.blockedOn=null);for(;0<hn.length&&(t=hn[0],t.blockedOn===null);)_a(t),t.blockedOn===null&&hn.shift()}var gt=an.ReactCurrentBatchConfig,dl=!0;function uf(e,n,t,r){var l=D,i=gt.transition;gt.transition=null;try{D=1,Mo(e,n,t,r)}finally{D=l,gt.transition=i}}function sf(e,n,t,r){var l=D,i=gt.transition;gt.transition=null;try{D=4,Mo(e,n,t,r)}finally{D=l,gt.transition=i}}function Mo(e,n,t,r){if(dl){var l=Wi(e,n,t,r);if(l===null)di(e,n,r,fl,t),Mu(e,r);else if(lf(l,e,n,t,r))r.stopPropagation();else if(Mu(e,r),n&4&&-1<rf.indexOf(e)){for(;l!==null;){var i=Nr(l);if(i!==null&&wa(i),i=Wi(e,n,t,r),i===null&&di(e,n,r,fl,t),i===l)break;l=i}l!==null&&r.stopPropagation()}else di(e,n,r,null,t)}}var fl=null;function Wi(e,n,t,r){if(fl=null,e=To(r),e=An(e),e!==null)if(n=Zn(e),n===null)e=null;else if(t=n.tag,t===13){if(e=da(n),e!==null)return e;e=null}else if(t===3){if(n.stateNode.current.memoizedState.isDehydrated)return n.tag===3?n.stateNode.containerInfo:null;e=null}else n!==e&&(e=null);return fl=e,null}function Ea(e){switch(e){case"cancel":case"click":case"close":case"contextmenu":case"copy":case"cut":case"auxclick":case"dblclick":case"dragend":case"dragstart":case"drop":case"focusin":case"focusout":case"input":case"invalid":case"keydown":case"keypress":case"keyup":case"mousedown":case"mouseup":case"paste":case"pause":case"play":case"pointercancel":case"pointerdown":case"pointerup":case"ratechange":case"reset":case"resize":case"seeked":case"submit":case"touchcancel":case"touchend":case"touchstart":case"volumechange":case"change":case"selectionchange":case"textInput":case"compositionstart":case"compositionend":case"compositionupdate":case"beforeblur":case"afterblur":case"beforeinput":case"blur":case"fullscreenchange":case"focus":case"hashchange":case"popstate":case"select":case"selectstart":return 1;case"drag":case"dragenter":case"dragexit":case"dragleave":case"dragover":case"mousemove":case"mouseout":case"mouseover":case"pointermove":case"pointerout":case"pointerover":case"scroll":case"toggle":case"touchmove":case"wheel":case"mouseenter":case"mouseleave":case"pointerenter":case"pointerleave":return 4;case"message":switch(Yd()){case Ro:return 1;case ma:return 4;case al:case Xd:return 16;case va:return 536870912;default:return 16}default:return 16}}var vn=null,Oo=null,Jr=null;function Na(){if(Jr)return Jr;var e,n=Oo,t=n.length,r,l="value"in vn?vn.value:vn.textContent,i=l.length;for(e=0;e<t&&n[e]===l[e];e++);var o=t-e;for(r=1;r<=o&&n[t-r]===l[i-r];r++);return Jr=l.slice(e,1<r?1-r:void 0)}function qr(e){var n=e.keyCode;return"charCode"in e?(e=e.charCode,e===0&&n===13&&(e=13)):e=n,e===10&&(e=13),32<=e||e===13?e:0}function Fr(){return!0}function Iu(){return!1}function Pe(e){function n(t,r,l,i,o){this._reactName=t,this._targetInst=l,this.type=r,this.nativeEvent=i,this.target=o,this.currentTarget=null;for(var u in e)e.hasOwnProperty(u)&&(t=e[u],this[u]=t?t(i):i[u]);return this.isDefaultPrevented=(i.defaultPrevented!=null?i.defaultPrevented:i.returnValue===!1)?Fr:Iu,this.isPropagationStopped=Iu,this}return G(n.prototype,{preventDefault:function(){this.defaultPrevented=!0;var t=this.nativeEvent;t&&(t.preventDefault?t.preventDefault():typeof t.returnValue!="unknown"&&(t.returnValue=!1),this.isDefaultPrevented=Fr)},stopPropagation:function(){var t=this.nativeEvent;t&&(t.stopPropagation?t.stopPropagation():typeof t.cancelBubble!="unknown"&&(t.cancelBubble=!0),this.isPropagationStopped=Fr)},persist:function(){},isPersistent:Fr}),n}var Pt={eventPhase:0,bubbles:0,cancelable:0,timeStamp:function(e){return e.timeStamp||Date.now()},defaultPrevented:0,isTrusted:0},Io=Pe(Pt),Er=G({},Pt,{view:0,detail:0}),af=Pe(Er),ti,ri,Qt,Ml=G({},Er,{screenX:0,screenY:0,clientX:0,clientY:0,pageX:0,pageY:0,ctrlKey:0,shiftKey:0,altKey:0,metaKey:0,getModifierState:Do,button:0,buttons:0,relatedTarget:function(e){return e.relatedTarget===void 0?e.fromElement===e.srcElement?e.toElement:e.fromElement:e.relatedTarget},movementX:function(e){return"movementX"in e?e.movementX:(e!==Qt&&(Qt&&e.type==="mousemove"?(ti=e.screenX-Qt.screenX,ri=e.screenY-Qt.screenY):ri=ti=0,Qt=e),ti)},movementY:function(e){return"movementY"in e?e.movementY:ri}}),Du=Pe(Ml),cf=G({},Ml,{dataTransfer:0}),df=Pe(cf),ff=G({},Er,{relatedTarget:0}),li=Pe(ff),pf=G({},Pt,{animationName:0,elapsedTime:0,pseudoElement:0}),hf=Pe(pf),mf=G({},Pt,{clipboardData:function(e){return"clipboardData"in e?e.clipboardData:window.clipboardData}}),vf=Pe(mf),gf=G({},Pt,{data:0}),Fu=Pe(gf),yf={Esc:"Escape",Spacebar:" ",Left:"ArrowLeft",Up:"ArrowUp",Right:"ArrowRight",Down:"ArrowDown",Del:"Delete",Win:"OS",Menu:"ContextMenu",Apps:"ContextMenu",Scroll:"ScrollLock",MozPrintableKey:"Unidentified"},wf={8:"Backspace",9:"Tab",12:"Clear",13:"Enter",16:"Shift",17:"Control",18:"Alt",19:"Pause",20:"CapsLock",27:"Escape",32:" ",33:"PageUp",34:"PageDown",35:"End",36:"Home",37:"ArrowLeft",38:"ArrowUp",39:"ArrowRight",40:"ArrowDown",45:"Insert",46:"Delete",112:"F1",113:"F2",114:"F3",115:"F4",116:"F5",117:"F6",118:"F7",119:"F8",120:"F9",121:"F10",122:"F11",123:"F12",144:"NumLock",145:"ScrollLock",224:"Meta"},Sf={Alt:"altKey",Control:"ctrlKey",Meta:"metaKey",Shift:"shiftKey"};function kf(e){var n=this.nativeEvent;return n.getModifierState?n.getModifierState(e):(e=Sf[e])?!!n[e]:!1}function Do(){return kf}var xf=G({},Er,{key:function(e){if(e.key){var n=yf[e.key]||e.key;if(n!=="Unidentified")return n}return e.type==="keypress"?(e=qr(e),e===13?"Enter":String.fromCharCode(e)):e.type==="keydown"||e.type==="keyup"?wf[e.keyCode]||"Unidentified":""},code:0,location:0,ctrlKey:0,shiftKey:0,altKey:0,metaKey:0,repeat:0,locale:0,getModifierState:Do,charCode:function(e){return e.type==="keypress"?qr(e):0},keyCode:function(e){return e.type==="keydown"||e.type==="keyup"?e.keyCode:0},which:function(e){return e.type==="keypress"?qr(e):e.type==="keydown"||e.type==="keyup"?e.keyCode:0}}),_f=Pe(xf),Ef=G({},Ml,{pointerId:0,width:0,height:0,pressure:0,tangentialPressure:0,tiltX:0,tiltY:0,twist:0,pointerType:0,isPrimary:0}),Au=Pe(Ef),Nf=G({},Er,{touches:0,targetTouches:0,changedTouches:0,altKey:0,metaKey:0,ctrlKey:0,shiftKey:0,getModifierState:Do}),Cf=Pe(Nf),jf=G({},Pt,{propertyName:0,elapsedTime:0,pseudoElement:0}),Pf=Pe(jf),Tf=G({},Ml,{deltaX:function(e){return"deltaX"in e?e.deltaX:"wheelDeltaX"in e?-e.wheelDeltaX:0},deltaY:function(e){return"deltaY"in e?e.deltaY:"wheelDeltaY"in e?-e.wheelDeltaY:"wheelDelta"in e?-e.wheelDelta:0},deltaZ:0,deltaMode:0}),Rf=Pe(Tf),zf=[9,13,27,32],Fo=ln&&"CompositionEvent"in window,qt=null;ln&&"documentMode"in document&&(qt=document.documentMode);var Lf=ln&&"TextEvent"in window&&!qt,Ca=ln&&(!Fo||qt&&8<qt&&11>=qt),$u=" ",Uu=!1;function ja(e,n){switch(e){case"keyup":return zf.indexOf(n.keyCode)!==-1;case"keydown":return n.keyCode!==229;case"keypress":case"mousedown":case"focusout":return!0;default:return!1}}function Pa(e){return e=e.detail,typeof e=="object"&&"data"in e?e.data:null}var lt=!1;function Mf(e,n){switch(e){case"compositionend":return Pa(n);case"keypress":return n.which!==32?null:(Uu=!0,$u);case"textInput":return e=n.data,e===$u&&Uu?null:e;default:return null}}function Of(e,n){if(lt)return e==="compositionend"||!Fo&&ja(e,n)?(e=Na(),Jr=Oo=vn=null,lt=!1,e):null;switch(e){case"paste":return null;case"keypress":if(!(n.ctrlKey||n.altKey||n.metaKey)||n.ctrlKey&&n.altKey){if(n.char&&1<n.char.length)return n.char;if(n.which)return String.fromCharCode(n.which)}return null;case"compositionend":return Ca&&n.locale!=="ko"?null:n.data;default:return null}}var If={color:!0,date:!0,datetime:!0,"datetime-local":!0,email:!0,month:!0,number:!0,password:!0,range:!0,search:!0,tel:!0,text:!0,time:!0,url:!0,week:!0};function Bu(e){var n=e&&e.nodeName&&e.nodeName.toLowerCase();return n==="input"?!!If[e.type]:n==="textarea"}function Ta(e,n,t,r){oa(r),n=pl(n,"onChange"),0<n.length&&(t=new Io("onChange","change",null,t,r),e.push({event:t,listeners:n}))}var bt=null,dr=null;function Df(e){Ua(e,0)}function Ol(e){var n=ut(e);if(bs(n))return e}function Ff(e,n){if(e==="change")return n}var Ra=!1;if(ln){var ii;if(ln){var oi="oninput"in document;if(!oi){var Qu=document.createElement("div");Qu.setAttribute("oninput","return;"),oi=typeof Qu.oninput=="function"}ii=oi}else ii=!1;Ra=ii&&(!document.documentMode||9<document.documentMode)}function Wu(){bt&&(bt.detachEvent("onpropertychange",za),dr=bt=null)}function za(e){if(e.propertyName==="value"&&Ol(dr)){var n=[];Ta(n,dr,e,To(e)),ca(Df,n)}}function Af(e,n,t){e==="focusin"?(Wu(),bt=n,dr=t,bt.attachEvent("onpropertychange",za)):e==="focusout"&&Wu()}function $f(e){if(e==="selectionchange"||e==="keyup"||e==="keydown")return Ol(dr)}function Uf(e,n){if(e==="click")return Ol(n)}function Bf(e,n){if(e==="input"||e==="change")return Ol(n)}function Qf(e,n){return e===n&&(e!==0||1/e===1/n)||e!==e&&n!==n}var Ve=typeof Object.is=="function"?Object.is:Qf;function fr(e,n){if(Ve(e,n))return!0;if(typeof e!="object"||e===null||typeof n!="object"||n===null)return!1;var t=Object.keys(e),r=Object.keys(n);if(t.length!==r.length)return!1;for(r=0;r<t.length;r++){var l=t[r];if(!Ni.call(n,l)||!Ve(e[l],n[l]))return!1}return!0}function Vu(e){for(;e&&e.firstChild;)e=e.firstChild;return e}function Hu(e,n){var t=Vu(e);e=0;for(var r;t;){if(t.nodeType===3){if(r=e+t.textContent.length,e<=n&&r>=n)return{node:t,offset:n-e};e=r}e:{for(;t;){if(t.nextSibling){t=t.nextSibling;break e}t=t.parentNode}t=void 0}t=Vu(t)}}function La(e,n){return e&&n?e===n?!0:e&&e.nodeType===3?!1:n&&n.nodeType===3?La(e,n.parentNode):"contains"in e?e.contains(n):e.compareDocumentPosition?!!(e.compareDocumentPosition(n)&16):!1:!1}function Ma(){for(var e=window,n=ol();n instanceof e.HTMLIFrameElement;){try{var t=typeof n.contentWindow.location.href=="string"}catch{t=!1}if(t)e=n.contentWindow;else break;n=ol(e.document)}return n}function Ao(e){var n=e&&e.nodeName&&e.nodeName.toLowerCase();return n&&(n==="input"&&(e.type==="text"||e.type==="search"||e.type==="tel"||e.type==="url"||e.type==="password")||n==="textarea"||e.contentEditable==="true")}function Wf(e){var n=Ma(),t=e.focusedElem,r=e.selectionRange;if(n!==t&&t&&t.ownerDocument&&La(t.ownerDocument.documentElement,t)){if(r!==null&&Ao(t)){if(n=r.start,e=r.end,e===void 0&&(e=n),"selectionStart"in t)t.selectionStart=n,t.selectionEnd=Math.min(e,t.value.length);else if(e=(n=t.ownerDocument||document)&&n.defaultView||window,e.getSelection){e=e.getSelection();var l=t.textContent.length,i=Math.min(r.start,l);r=r.end===void 0?i:Math.min(r.end,l),!e.extend&&i>r&&(l=r,r=i,i=l),l=Hu(t,i);var o=Hu(t,r);l&&o&&(e.rangeCount!==1||e.anchorNode!==l.node||e.anchorOffset!==l.offset||e.focusNode!==o.node||e.focusOffset!==o.offset)&&(n=n.createRange(),n.setStart(l.node,l.offset),e.removeAllRanges(),i>r?(e.addRange(n),e.extend(o.node,o.offset)):(n.setEnd(o.node,o.offset),e.addRange(n)))}}for(n=[],e=t;e=e.parentNode;)e.nodeType===1&&n.push({element:e,left:e.scrollLeft,top:e.scrollTop});for(typeof t.focus=="function"&&t.focus(),t=0;t<n.length;t++)e=n[t],e.element.scrollLeft=e.left,e.element.scrollTop=e.top}}var Vf=ln&&"documentMode"in document&&11>=document.documentMode,it=null,Vi=null,er=null,Hi=!1;function Ku(e,n,t){var r=t.window===t?t.document:t.nodeType===9?t:t.ownerDocument;Hi||it==null||it!==ol(r)||(r=it,"selectionStart"in r&&Ao(r)?r={start:r.selectionStart,end:r.selectionEnd}:(r=(r.ownerDocument&&r.ownerDocument.defaultView||window).getSelection(),r={anchorNode:r.anchorNode,anchorOffset:r.anchorOffset,focusNode:r.focusNode,focusOffset:r.focusOffset}),er&&fr(er,r)||(er=r,r=pl(Vi,"onSelect"),0<r.length&&(n=new Io("onSelect","select",null,n,t),e.push({event:n,listeners:r}),n.target=it)))}function Ar(e,n){var t={};return t[e.toLowerCase()]=n.toLowerCase(),t["Webkit"+e]="webkit"+n,t["Moz"+e]="moz"+n,t}var ot={animationend:Ar("Animation","AnimationEnd"),animationiteration:Ar("Animation","AnimationIteration"),animationstart:Ar("Animation","AnimationStart"),transitionend:Ar("Transition","TransitionEnd")},ui={},Oa={};ln&&(Oa=document.createElement("div").style,"AnimationEvent"in window||(delete ot.animationend.animation,delete ot.animationiteration.animation,delete ot.animationstart.animation),"TransitionEvent"in window||delete ot.transitionend.transition);function Il(e){if(ui[e])return ui[e];if(!ot[e])return e;var n=ot[e],t;for(t in n)if(n.hasOwnProperty(t)&&t in Oa)return ui[e]=n[t];return e}var Ia=Il("animationend"),Da=Il("animationiteration"),Fa=Il("animationstart"),Aa=Il("transitionend"),$a=new Map,Gu="abort auxClick cancel canPlay canPlayThrough click close contextMenu copy cut drag dragEnd dragEnter dragExit dragLeave dragOver dragStart drop durationChange emptied encrypted ended error gotPointerCapture input invalid keyDown keyPress keyUp load loadedData loadedMetadata loadStart lostPointerCapture mouseDown mouseMove mouseOut mouseOver mouseUp paste pause play playing pointerCancel pointerDown pointerMove pointerOut pointerOver pointerUp progress rateChange reset resize seeked seeking stalled submit suspend timeUpdate touchCancel touchEnd touchStart volumeChange scroll toggle touchMove waiting wheel".split(" ");function Tn(e,n){$a.set(e,n),Xn(n,[e])}for(var si=0;si<Gu.length;si++){var ai=Gu[si],Hf=ai.toLowerCase(),Kf=ai[0].toUpperCase()+ai.slice(1);Tn(Hf,"on"+Kf)}Tn(Ia,"onAnimationEnd");Tn(Da,"onAnimationIteration");Tn(Fa,"onAnimationStart");Tn("dblclick","onDoubleClick");Tn("focusin","onFocus");Tn("focusout","onBlur");Tn(Aa,"onTransitionEnd");St("onMouseEnter",["mouseout","mouseover"]);St("onMouseLeave",["mouseout","mouseover"]);St("onPointerEnter",["pointerout","pointerover"]);St("onPointerLeave",["pointerout","pointerover"]);Xn("onChange","change click focusin focusout input keydown keyup selectionchange".split(" "));Xn("onSelect","focusout contextmenu dragend focusin keydown keyup mousedown mouseup selectionchange".split(" "));Xn("onBeforeInput",["compositionend","keypress","textInput","paste"]);Xn("onCompositionEnd","compositionend focusout keydown keypress keyup mousedown".split(" "));Xn("onCompositionStart","compositionstart focusout keydown keypress keyup mousedown".split(" "));Xn("onCompositionUpdate","compositionupdate focusout keydown keypress keyup mousedown".split(" "));var Xt="abort canplay canplaythrough durationchange emptied encrypted ended error loadeddata loadedmetadata loadstart pause play playing progress ratechange resize seeked seeking stalled suspend timeupdate volumechange waiting".split(" "),Gf=new Set("cancel close invalid load scroll toggle".split(" ").concat(Xt));function Yu(e,n,t){var r=e.type||"unknown-event";e.currentTarget=t,Vd(r,n,void 0,e),e.currentTarget=null}function Ua(e,n){n=(n&4)!==0;for(var t=0;t<e.length;t++){var r=e[t],l=r.event;r=r.listeners;e:{var i=void 0;if(n)for(var o=r.length-1;0<=o;o--){var u=r[o],s=u.instance,d=u.currentTarget;if(u=u.listener,s!==i&&l.isPropagationStopped())break e;Yu(l,u,d),i=s}else for(o=0;o<r.length;o++){if(u=r[o],s=u.instance,d=u.currentTarget,u=u.listener,s!==i&&l.isPropagationStopped())break e;Yu(l,u,d),i=s}}}if(sl)throw e=Ui,sl=!1,Ui=null,e}function $(e,n){var t=n[Zi];t===void 0&&(t=n[Zi]=new Set);var r=e+"__bubble";t.has(r)||(Ba(n,e,2,!1),t.add(r))}function ci(e,n,t){var r=0;n&&(r|=4),Ba(t,e,r,n)}var $r="_reactListening"+Math.random().toString(36).slice(2);function pr(e){if(!e[$r]){e[$r]=!0,Ys.forEach(function(t){t!=="selectionchange"&&(Gf.has(t)||ci(t,!1,e),ci(t,!0,e))});var n=e.nodeType===9?e:e.ownerDocument;n===null||n[$r]||(n[$r]=!0,ci("selectionchange",!1,n))}}function Ba(e,n,t,r){switch(Ea(n)){case 1:var l=uf;break;case 4:l=sf;break;default:l=Mo}t=l.bind(null,n,t,e),l=void 0,!$i||n!=="touchstart"&&n!=="touchmove"&&n!=="wheel"||(l=!0),r?l!==void 0?e.addEventListener(n,t,{capture:!0,passive:l}):e.addEventListener(n,t,!0):l!==void 0?e.addEventListener(n,t,{passive:l}):e.addEventListener(n,t,!1)}function di(e,n,t,r,l){var i=r;if(!(n&1)&&!(n&2)&&r!==null)e:for(;;){if(r===null)return;var o=r.tag;if(o===3||o===4){var u=r.stateNode.containerInfo;if(u===l||u.nodeType===8&&u.parentNode===l)break;if(o===4)for(o=r.return;o!==null;){var s=o.tag;if((s===3||s===4)&&(s=o.stateNode.containerInfo,s===l||s.nodeType===8&&s.parentNode===l))return;o=o.return}for(;u!==null;){if(o=An(u),o===null)return;if(s=o.tag,s===5||s===6){r=i=o;continue e}u=u.parentNode}}r=r.return}ca(function(){var d=i,v=To(t),h=[];e:{var m=$a.get(e);if(m!==void 0){var w=Io,k=e;switch(e){case"keypress":if(qr(t)===0)break e;case"keydown":case"keyup":w=_f;break;case"focusin":k="focus",w=li;break;case"focusout":k="blur",w=li;break;case"beforeblur":case"afterblur":w=li;break;case"click":if(t.button===2)break e;case"auxclick":case"dblclick":case"mousedown":case"mousemove":case"mouseup":case"mouseout":case"mouseover":case"contextmenu":w=Du;break;case"drag":case"dragend":case"dragenter":case"dragexit":case"dragleave":case"dragover":case"dragstart":case"drop":w=df;break;case"touchcancel":case"touchend":case"touchmove":case"touchstart":w=Cf;break;case Ia:case Da:case Fa:w=hf;break;case Aa:w=Pf;break;case"scroll":w=af;break;case"wheel":w=Rf;break;case"copy":case"cut":case"paste":w=vf;break;case"gotpointercapture":case"lostpointercapture":case"pointercancel":case"pointerdown":case"pointermove":case"pointerout":case"pointerover":case"pointerup":w=Au}var S=(n&4)!==0,I=!S&&e==="scroll",f=S?m!==null?m+"Capture":null:m;S=[];for(var c=d,p;c!==null;){p=c;var g=p.stateNode;if(p.tag===5&&g!==null&&(p=g,f!==null&&(g=ur(c,f),g!=null&&S.push(hr(c,g,p)))),I)break;c=c.return}0<S.length&&(m=new w(m,k,null,t,v),h.push({event:m,listeners:S}))}}if(!(n&7)){e:{if(m=e==="mouseover"||e==="pointerover",w=e==="mouseout"||e==="pointerout",m&&t!==Fi&&(k=t.relatedTarget||t.fromElement)&&(An(k)||k[on]))break e;if((w||m)&&(m=v.window===v?v:(m=v.ownerDocument)?m.defaultView||m.parentWindow:window,w?(k=t.relatedTarget||t.toElement,w=d,k=k?An(k):null,k!==null&&(I=Zn(k),k!==I||k.tag!==5&&k.tag!==6)&&(k=null)):(w=null,k=d),w!==k)){if(S=Du,g="onMouseLeave",f="onMouseEnter",c="mouse",(e==="pointerout"||e==="pointerover")&&(S=Au,g="onPointerLeave",f="onPointerEnter",c="pointer"),I=w==null?m:ut(w),p=k==null?m:ut(k),m=new S(g,c+"leave",w,t,v),m.target=I,m.relatedTarget=p,g=null,An(v)===d&&(S=new S(f,c+"enter",k,t,v),S.target=p,S.relatedTarget=I,g=S),I=g,w&&k)n:{for(S=w,f=k,c=0,p=S;p;p=nt(p))c++;for(p=0,g=f;g;g=nt(g))p++;for(;0<c-p;)S=nt(S),c--;for(;0<p-c;)f=nt(f),p--;for(;c--;){if(S===f||f!==null&&S===f.alternate)break n;S=nt(S),f=nt(f)}S=null}else S=null;w!==null&&Xu(h,m,w,S,!1),k!==null&&I!==null&&Xu(h,I,k,S,!0)}}e:{if(m=d?ut(d):window,w=m.nodeName&&m.nodeName.toLowerCase(),w==="select"||w==="input"&&m.type==="file")var x=Ff;else if(Bu(m))if(Ra)x=Bf;else{x=$f;var C=Af}else(w=m.nodeName)&&w.toLowerCase()==="input"&&(m.type==="checkbox"||m.type==="radio")&&(x=Uf);if(x&&(x=x(e,d))){Ta(h,x,t,v);break e}C&&C(e,m,d),e==="focusout"&&(C=m._wrapperState)&&C.controlled&&m.type==="number"&&Li(m,"number",m.value)}switch(C=d?ut(d):window,e){case"focusin":(Bu(C)||C.contentEditable==="true")&&(it=C,Vi=d,er=null);break;case"focusout":er=Vi=it=null;break;case"mousedown":Hi=!0;break;case"contextmenu":case"mouseup":case"dragend":Hi=!1,Ku(h,t,v);break;case"selectionchange":if(Vf)break;case"keydown":case"keyup":Ku(h,t,v)}var N;if(Fo)e:{switch(e){case"compositionstart":var j="onCompositionStart";break e;case"compositionend":j="onCompositionEnd";break e;case"compositionupdate":j="onCompositionUpdate";break e}j=void 0}else lt?ja(e,t)&&(j="onCompositionEnd"):e==="keydown"&&t.keyCode===229&&(j="onCompositionStart");j&&(Ca&&t.locale!=="ko"&&(lt||j!=="onCompositionStart"?j==="onCompositionEnd"&&lt&&(N=Na()):(vn=v,Oo="value"in vn?vn.value:vn.textContent,lt=!0)),C=pl(d,j),0<C.length&&(j=new Fu(j,e,null,t,v),h.push({event:j,listeners:C}),N?j.data=N:(N=Pa(t),N!==null&&(j.data=N)))),(N=Lf?Mf(e,t):Of(e,t))&&(d=pl(d,"onBeforeInput"),0<d.length&&(v=new Fu("onBeforeInput","beforeinput",null,t,v),h.push({event:v,listeners:d}),v.data=N))}Ua(h,n)})}function hr(e,n,t){return{instance:e,listener:n,currentTarget:t}}function pl(e,n){for(var t=n+"Capture",r=[];e!==null;){var l=e,i=l.stateNode;l.tag===5&&i!==null&&(l=i,i=ur(e,t),i!=null&&r.unshift(hr(e,i,l)),i=ur(e,n),i!=null&&r.push(hr(e,i,l))),e=e.return}return r}function nt(e){if(e===null)return null;do e=e.return;while(e&&e.tag!==5);return e||null}function Xu(e,n,t,r,l){for(var i=n._reactName,o=[];t!==null&&t!==r;){var u=t,s=u.alternate,d=u.stateNode;if(s!==null&&s===r)break;u.tag===5&&d!==null&&(u=d,l?(s=ur(t,i),s!=null&&o.unshift(hr(t,s,u))):l||(s=ur(t,i),s!=null&&o.push(hr(t,s,u)))),t=t.return}o.length!==0&&e.push({event:n,listeners:o})}var Yf=/\r\n?/g,Xf=/\u0000|\uFFFD/g;function Zu(e){return(typeof e=="string"?e:""+e).replace(Yf,`
-`).replace(Xf,"")}function Ur(e,n,t){if(n=Zu(n),Zu(e)!==n&&t)throw Error(y(425))}function hl(){}var Ki=null,Gi=null;function Yi(e,n){return e==="textarea"||e==="noscript"||typeof n.children=="string"||typeof n.children=="number"||typeof n.dangerouslySetInnerHTML=="object"&&n.dangerouslySetInnerHTML!==null&&n.dangerouslySetInnerHTML.__html!=null}var Xi=typeof setTimeout=="function"?setTimeout:void 0,Zf=typeof clearTimeout=="function"?clearTimeout:void 0,Ju=typeof Promise=="function"?Promise:void 0,Jf=typeof queueMicrotask=="function"?queueMicrotask:typeof Ju<"u"?function(e){return Ju.resolve(null).then(e).catch(qf)}:Xi;function qf(e){setTimeout(function(){throw e})}function fi(e,n){var t=n,r=0;do{var l=t.nextSibling;if(e.removeChild(t),l&&l.nodeType===8)if(t=l.data,t==="/$"){if(r===0){e.removeChild(l),cr(n);return}r--}else t!=="$"&&t!=="$?"&&t!=="$!"||r++;t=l}while(t);cr(n)}function kn(e){for(;e!=null;e=e.nextSibling){var n=e.nodeType;if(n===1||n===3)break;if(n===8){if(n=e.data,n==="$"||n==="$!"||n==="$?")break;if(n==="/$")return null}}return e}function qu(e){e=e.previousSibling;for(var n=0;e;){if(e.nodeType===8){var t=e.data;if(t==="$"||t==="$!"||t==="$?"){if(n===0)return e;n--}else t==="/$"&&n++}e=e.previousSibling}return null}var Tt=Math.random().toString(36).slice(2),Ye="__reactFiber$"+Tt,mr="__reactProps$"+Tt,on="__reactContainer$"+Tt,Zi="__reactEvents$"+Tt,bf="__reactListeners$"+Tt,ep="__reactHandles$"+Tt;function An(e){var n=e[Ye];if(n)return n;for(var t=e.parentNode;t;){if(n=t[on]||t[Ye]){if(t=n.alternate,n.child!==null||t!==null&&t.child!==null)for(e=qu(e);e!==null;){if(t=e[Ye])return t;e=qu(e)}return n}e=t,t=e.parentNode}return null}function Nr(e){return e=e[Ye]||e[on],!e||e.tag!==5&&e.tag!==6&&e.tag!==13&&e.tag!==3?null:e}function ut(e){if(e.tag===5||e.tag===6)return e.stateNode;throw Error(y(33))}function Dl(e){return e[mr]||null}var Ji=[],st=-1;function Rn(e){return{current:e}}function U(e){0>st||(e.current=Ji[st],Ji[st]=null,st--)}function F(e,n){st++,Ji[st]=e.current,e.current=n}var Pn={},ae=Rn(Pn),ye=Rn(!1),Vn=Pn;function kt(e,n){var t=e.type.contextTypes;if(!t)return Pn;var r=e.stateNode;if(r&&r.__reactInternalMemoizedUnmaskedChildContext===n)return r.__reactInternalMemoizedMaskedChildContext;var l={},i;for(i in t)l[i]=n[i];return r&&(e=e.stateNode,e.__reactInternalMemoizedUnmaskedChildContext=n,e.__reactInternalMemoizedMaskedChildContext=l),l}function we(e){return e=e.childContextTypes,e!=null}function ml(){U(ye),U(ae)}function bu(e,n,t){if(ae.current!==Pn)throw Error(y(168));F(ae,n),F(ye,t)}function Qa(e,n,t){var r=e.stateNode;if(n=n.childContextTypes,typeof r.getChildContext!="function")return t;r=r.getChildContext();for(var l in r)if(!(l in n))throw Error(y(108,Fd(e)||"Unknown",l));return G({},t,r)}function vl(e){return e=(e=e.stateNode)&&e.__reactInternalMemoizedMergedChildContext||Pn,Vn=ae.current,F(ae,e),F(ye,ye.current),!0}function es(e,n,t){var r=e.stateNode;if(!r)throw Error(y(169));t?(e=Qa(e,n,Vn),r.__reactInternalMemoizedMergedChildContext=e,U(ye),U(ae),F(ae,e)):U(ye),F(ye,t)}var en=null,Fl=!1,pi=!1;function Wa(e){en===null?en=[e]:en.push(e)}function np(e){Fl=!0,Wa(e)}function zn(){if(!pi&&en!==null){pi=!0;var e=0,n=D;try{var t=en;for(D=1;e<t.length;e++){var r=t[e];do r=r(!0);while(r!==null)}en=null,Fl=!1}catch(l){throw en!==null&&(en=en.slice(e+1)),ha(Ro,zn),l}finally{D=n,pi=!1}}return null}var at=[],ct=0,gl=null,yl=0,Re=[],ze=0,Hn=null,nn=1,tn="";function Dn(e,n){at[ct++]=yl,at[ct++]=gl,gl=e,yl=n}function Va(e,n,t){Re[ze++]=nn,Re[ze++]=tn,Re[ze++]=Hn,Hn=e;var r=nn;e=tn;var l=32-Qe(r)-1;r&=~(1<<l),t+=1;var i=32-Qe(n)+l;if(30<i){var o=l-l%5;i=(r&(1<<o)-1).toString(32),r>>=o,l-=o,nn=1<<32-Qe(n)+l|t<<l|r,tn=i+e}else nn=1<<i|t<<l|r,tn=e}function $o(e){e.return!==null&&(Dn(e,1),Va(e,1,0))}function Uo(e){for(;e===gl;)gl=at[--ct],at[ct]=null,yl=at[--ct],at[ct]=null;for(;e===Hn;)Hn=Re[--ze],Re[ze]=null,tn=Re[--ze],Re[ze]=null,nn=Re[--ze],Re[ze]=null}var Ne=null,Ee=null,B=!1,Be=null;function Ha(e,n){var t=Le(5,null,null,0);t.elementType="DELETED",t.stateNode=n,t.return=e,n=e.deletions,n===null?(e.deletions=[t],e.flags|=16):n.push(t)}function ns(e,n){switch(e.tag){case 5:var t=e.type;return n=n.nodeType!==1||t.toLowerCase()!==n.nodeName.toLowerCase()?null:n,n!==null?(e.stateNode=n,Ne=e,Ee=kn(n.firstChild),!0):!1;case 6:return n=e.pendingProps===""||n.nodeType!==3?null:n,n!==null?(e.stateNode=n,Ne=e,Ee=null,!0):!1;case 13:return n=n.nodeType!==8?null:n,n!==null?(t=Hn!==null?{id:nn,overflow:tn}:null,e.memoizedState={dehydrated:n,treeContext:t,retryLane:1073741824},t=Le(18,null,null,0),t.stateNode=n,t.return=e,e.child=t,Ne=e,Ee=null,!0):!1;default:return!1}}function qi(e){return(e.mode&1)!==0&&(e.flags&128)===0}function bi(e){if(B){var n=Ee;if(n){var t=n;if(!ns(e,n)){if(qi(e))throw Error(y(418));n=kn(t.nextSibling);var r=Ne;n&&ns(e,n)?Ha(r,t):(e.flags=e.flags&-4097|2,B=!1,Ne=e)}}else{if(qi(e))throw Error(y(418));e.flags=e.flags&-4097|2,B=!1,Ne=e}}}function ts(e){for(e=e.return;e!==null&&e.tag!==5&&e.tag!==3&&e.tag!==13;)e=e.return;Ne=e}function Br(e){if(e!==Ne)return!1;if(!B)return ts(e),B=!0,!1;var n;if((n=e.tag!==3)&&!(n=e.tag!==5)&&(n=e.type,n=n!=="head"&&n!=="body"&&!Yi(e.type,e.memoizedProps)),n&&(n=Ee)){if(qi(e))throw Ka(),Error(y(418));for(;n;)Ha(e,n),n=kn(n.nextSibling)}if(ts(e),e.tag===13){if(e=e.memoizedState,e=e!==null?e.dehydrated:null,!e)throw Error(y(317));e:{for(e=e.nextSibling,n=0;e;){if(e.nodeType===8){var t=e.data;if(t==="/$"){if(n===0){Ee=kn(e.nextSibling);break e}n--}else t!=="$"&&t!=="$!"&&t!=="$?"||n++}e=e.nextSibling}Ee=null}}else Ee=Ne?kn(e.stateNode.nextSibling):null;return!0}function Ka(){for(var e=Ee;e;)e=kn(e.nextSibling)}function xt(){Ee=Ne=null,B=!1}function Bo(e){Be===null?Be=[e]:Be.push(e)}var tp=an.ReactCurrentBatchConfig;function Wt(e,n,t){if(e=t.ref,e!==null&&typeof e!="function"&&typeof e!="object"){if(t._owner){if(t=t._owner,t){if(t.tag!==1)throw Error(y(309));var r=t.stateNode}if(!r)throw Error(y(147,e));var l=r,i=""+e;return n!==null&&n.ref!==null&&typeof n.ref=="function"&&n.ref._stringRef===i?n.ref:(n=function(o){var u=l.refs;o===null?delete u[i]:u[i]=o},n._stringRef=i,n)}if(typeof e!="string")throw Error(y(284));if(!t._owner)throw Error(y(290,e))}return e}function Qr(e,n){throw e=Object.prototype.toString.call(n),Error(y(31,e==="[object Object]"?"object with keys {"+Object.keys(n).join(", ")+"}":e))}function rs(e){var n=e._init;return n(e._payload)}function Ga(e){function n(f,c){if(e){var p=f.deletions;p===null?(f.deletions=[c],f.flags|=16):p.push(c)}}function t(f,c){if(!e)return null;for(;c!==null;)n(f,c),c=c.sibling;return null}function r(f,c){for(f=new Map;c!==null;)c.key!==null?f.set(c.key,c):f.set(c.index,c),c=c.sibling;return f}function l(f,c){return f=Nn(f,c),f.index=0,f.sibling=null,f}function i(f,c,p){return f.index=p,e?(p=f.alternate,p!==null?(p=p.index,p<c?(f.flags|=2,c):p):(f.flags|=2,c)):(f.flags|=1048576,c)}function o(f){return e&&f.alternate===null&&(f.flags|=2),f}function u(f,c,p,g){return c===null||c.tag!==6?(c=Si(p,f.mode,g),c.return=f,c):(c=l(c,p),c.return=f,c)}function s(f,c,p,g){var x=p.type;return x===rt?v(f,c,p.props.children,g,p.key):c!==null&&(c.elementType===x||typeof x=="object"&&x!==null&&x.$$typeof===fn&&rs(x)===c.type)?(g=l(c,p.props),g.ref=Wt(f,c,p),g.return=f,g):(g=il(p.type,p.key,p.props,null,f.mode,g),g.ref=Wt(f,c,p),g.return=f,g)}function d(f,c,p,g){return c===null||c.tag!==4||c.stateNode.containerInfo!==p.containerInfo||c.stateNode.implementation!==p.implementation?(c=ki(p,f.mode,g),c.return=f,c):(c=l(c,p.children||[]),c.return=f,c)}function v(f,c,p,g,x){return c===null||c.tag!==7?(c=Qn(p,f.mode,g,x),c.return=f,c):(c=l(c,p),c.return=f,c)}function h(f,c,p){if(typeof c=="string"&&c!==""||typeof c=="number")return c=Si(""+c,f.mode,p),c.return=f,c;if(typeof c=="object"&&c!==null){switch(c.$$typeof){case zr:return p=il(c.type,c.key,c.props,null,f.mode,p),p.ref=Wt(f,null,c),p.return=f,p;case tt:return c=ki(c,f.mode,p),c.return=f,c;case fn:var g=c._init;return h(f,g(c._payload),p)}if(Gt(c)||At(c))return c=Qn(c,f.mode,p,null),c.return=f,c;Qr(f,c)}return null}function m(f,c,p,g){var x=c!==null?c.key:null;if(typeof p=="string"&&p!==""||typeof p=="number")return x!==null?null:u(f,c,""+p,g);if(typeof p=="object"&&p!==null){switch(p.$$typeof){case zr:return p.key===x?s(f,c,p,g):null;case tt:return p.key===x?d(f,c,p,g):null;case fn:return x=p._init,m(f,c,x(p._payload),g)}if(Gt(p)||At(p))return x!==null?null:v(f,c,p,g,null);Qr(f,p)}return null}function w(f,c,p,g,x){if(typeof g=="string"&&g!==""||typeof g=="number")return f=f.get(p)||null,u(c,f,""+g,x);if(typeof g=="object"&&g!==null){switch(g.$$typeof){case zr:return f=f.get(g.key===null?p:g.key)||null,s(c,f,g,x);case tt:return f=f.get(g.key===null?p:g.key)||null,d(c,f,g,x);case fn:var C=g._init;return w(f,c,p,C(g._payload),x)}if(Gt(g)||At(g))return f=f.get(p)||null,v(c,f,g,x,null);Qr(c,g)}return null}function k(f,c,p,g){for(var x=null,C=null,N=c,j=c=0,Q=null;N!==null&&j<p.length;j++){N.index>j?(Q=N,N=null):Q=N.sibling;var z=m(f,N,p[j],g);if(z===null){N===null&&(N=Q);break}e&&N&&z.alternate===null&&n(f,N),c=i(z,c,j),C===null?x=z:C.sibling=z,C=z,N=Q}if(j===p.length)return t(f,N),B&&Dn(f,j),x;if(N===null){for(;j<p.length;j++)N=h(f,p[j],g),N!==null&&(c=i(N,c,j),C===null?x=N:C.sibling=N,C=N);return B&&Dn(f,j),x}for(N=r(f,N);j<p.length;j++)Q=w(N,f,j,p[j],g),Q!==null&&(e&&Q.alternate!==null&&N.delete(Q.key===null?j:Q.key),c=i(Q,c,j),C===null?x=Q:C.sibling=Q,C=Q);return e&&N.forEach(function(ke){return n(f,ke)}),B&&Dn(f,j),x}function S(f,c,p,g){var x=At(p);if(typeof x!="function")throw Error(y(150));if(p=x.call(p),p==null)throw Error(y(151));for(var C=x=null,N=c,j=c=0,Q=null,z=p.next();N!==null&&!z.done;j++,z=p.next()){N.index>j?(Q=N,N=null):Q=N.sibling;var ke=m(f,N,z.value,g);if(ke===null){N===null&&(N=Q);break}e&&N&&ke.alternate===null&&n(f,N),c=i(ke,c,j),C===null?x=ke:C.sibling=ke,C=ke,N=Q}if(z.done)return t(f,N),B&&Dn(f,j),x;if(N===null){for(;!z.done;j++,z=p.next())z=h(f,z.value,g),z!==null&&(c=i(z,c,j),C===null?x=z:C.sibling=z,C=z);return B&&Dn(f,j),x}for(N=r(f,N);!z.done;j++,z=p.next())z=w(N,f,j,z.value,g),z!==null&&(e&&z.alternate!==null&&N.delete(z.key===null?j:z.key),c=i(z,c,j),C===null?x=z:C.sibling=z,C=z);return e&&N.forEach(function(Ln){return n(f,Ln)}),B&&Dn(f,j),x}function I(f,c,p,g){if(typeof p=="object"&&p!==null&&p.type===rt&&p.key===null&&(p=p.props.children),typeof p=="object"&&p!==null){switch(p.$$typeof){case zr:e:{for(var x=p.key,C=c;C!==null;){if(C.key===x){if(x=p.type,x===rt){if(C.tag===7){t(f,C.sibling),c=l(C,p.props.children),c.return=f,f=c;break e}}else if(C.elementType===x||typeof x=="object"&&x!==null&&x.$$typeof===fn&&rs(x)===C.type){t(f,C.sibling),c=l(C,p.props),c.ref=Wt(f,C,p),c.return=f,f=c;break e}t(f,C);break}else n(f,C);C=C.sibling}p.type===rt?(c=Qn(p.props.children,f.mode,g,p.key),c.return=f,f=c):(g=il(p.type,p.key,p.props,null,f.mode,g),g.ref=Wt(f,c,p),g.return=f,f=g)}return o(f);case tt:e:{for(C=p.key;c!==null;){if(c.key===C)if(c.tag===4&&c.stateNode.containerInfo===p.containerInfo&&c.stateNode.implementation===p.implementation){t(f,c.sibling),c=l(c,p.children||[]),c.return=f,f=c;break e}else{t(f,c);break}else n(f,c);c=c.sibling}c=ki(p,f.mode,g),c.return=f,f=c}return o(f);case fn:return C=p._init,I(f,c,C(p._payload),g)}if(Gt(p))return k(f,c,p,g);if(At(p))return S(f,c,p,g);Qr(f,p)}return typeof p=="string"&&p!==""||typeof p=="number"?(p=""+p,c!==null&&c.tag===6?(t(f,c.sibling),c=l(c,p),c.return=f,f=c):(t(f,c),c=Si(p,f.mode,g),c.return=f,f=c),o(f)):t(f,c)}return I}var _t=Ga(!0),Ya=Ga(!1),wl=Rn(null),Sl=null,dt=null,Qo=null;function Wo(){Qo=dt=Sl=null}function Vo(e){var n=wl.current;U(wl),e._currentValue=n}function eo(e,n,t){for(;e!==null;){var r=e.alternate;if((e.childLanes&n)!==n?(e.childLanes|=n,r!==null&&(r.childLanes|=n)):r!==null&&(r.childLanes&n)!==n&&(r.childLanes|=n),e===t)break;e=e.return}}function yt(e,n){Sl=e,Qo=dt=null,e=e.dependencies,e!==null&&e.firstContext!==null&&(e.lanes&n&&(ge=!0),e.firstContext=null)}function Oe(e){var n=e._currentValue;if(Qo!==e)if(e={context:e,memoizedValue:n,next:null},dt===null){if(Sl===null)throw Error(y(308));dt=e,Sl.dependencies={lanes:0,firstContext:e}}else dt=dt.next=e;return n}var $n=null;function Ho(e){$n===null?$n=[e]:$n.push(e)}function Xa(e,n,t,r){var l=n.interleaved;return l===null?(t.next=t,Ho(n)):(t.next=l.next,l.next=t),n.interleaved=t,un(e,r)}function un(e,n){e.lanes|=n;var t=e.alternate;for(t!==null&&(t.lanes|=n),t=e,e=e.return;e!==null;)e.childLanes|=n,t=e.alternate,t!==null&&(t.childLanes|=n),t=e,e=e.return;return t.tag===3?t.stateNode:null}var pn=!1;function Ko(e){e.updateQueue={baseState:e.memoizedState,firstBaseUpdate:null,lastBaseUpdate:null,shared:{pending:null,interleaved:null,lanes:0},effects:null}}function Za(e,n){e=e.updateQueue,n.updateQueue===e&&(n.updateQueue={baseState:e.baseState,firstBaseUpdate:e.firstBaseUpdate,lastBaseUpdate:e.lastBaseUpdate,shared:e.shared,effects:e.effects})}function rn(e,n){return{eventTime:e,lane:n,tag:0,payload:null,callback:null,next:null}}function xn(e,n,t){var r=e.updateQueue;if(r===null)return null;if(r=r.shared,O&2){var l=r.pending;return l===null?n.next=n:(n.next=l.next,l.next=n),r.pending=n,un(e,t)}return l=r.interleaved,l===null?(n.next=n,Ho(r)):(n.next=l.next,l.next=n),r.interleaved=n,un(e,t)}function br(e,n,t){if(n=n.updateQueue,n!==null&&(n=n.shared,(t&4194240)!==0)){var r=n.lanes;r&=e.pendingLanes,t|=r,n.lanes=t,zo(e,t)}}function ls(e,n){var t=e.updateQueue,r=e.alternate;if(r!==null&&(r=r.updateQueue,t===r)){var l=null,i=null;if(t=t.firstBaseUpdate,t!==null){do{var o={eventTime:t.eventTime,lane:t.lane,tag:t.tag,payload:t.payload,callback:t.callback,next:null};i===null?l=i=o:i=i.next=o,t=t.next}while(t!==null);i===null?l=i=n:i=i.next=n}else l=i=n;t={baseState:r.baseState,firstBaseUpdate:l,lastBaseUpdate:i,shared:r.shared,effects:r.effects},e.updateQueue=t;return}e=t.lastBaseUpdate,e===null?t.firstBaseUpdate=n:e.next=n,t.lastBaseUpdate=n}function kl(e,n,t,r){var l=e.updateQueue;pn=!1;var i=l.firstBaseUpdate,o=l.lastBaseUpdate,u=l.shared.pending;if(u!==null){l.shared.pending=null;var s=u,d=s.next;s.next=null,o===null?i=d:o.next=d,o=s;var v=e.alternate;v!==null&&(v=v.updateQueue,u=v.lastBaseUpdate,u!==o&&(u===null?v.firstBaseUpdate=d:u.next=d,v.lastBaseUpdate=s))}if(i!==null){var h=l.baseState;o=0,v=d=s=null,u=i;do{var m=u.lane,w=u.eventTime;if((r&m)===m){v!==null&&(v=v.next={eventTime:w,lane:0,tag:u.tag,payload:u.payload,callback:u.callback,next:null});e:{var k=e,S=u;switch(m=n,w=t,S.tag){case 1:if(k=S.payload,typeof k=="function"){h=k.call(w,h,m);break e}h=k;break e;case 3:k.flags=k.flags&-65537|128;case 0:if(k=S.payload,m=typeof k=="function"?k.call(w,h,m):k,m==null)break e;h=G({},h,m);break e;case 2:pn=!0}}u.callback!==null&&u.lane!==0&&(e.flags|=64,m=l.effects,m===null?l.effects=[u]:m.push(u))}else w={eventTime:w,lane:m,tag:u.tag,payload:u.payload,callback:u.callback,next:null},v===null?(d=v=w,s=h):v=v.next=w,o|=m;if(u=u.next,u===null){if(u=l.shared.pending,u===null)break;m=u,u=m.next,m.next=null,l.lastBaseUpdate=m,l.shared.pending=null}}while(!0);if(v===null&&(s=h),l.baseState=s,l.firstBaseUpdate=d,l.lastBaseUpdate=v,n=l.shared.interleaved,n!==null){l=n;do o|=l.lane,l=l.next;while(l!==n)}else i===null&&(l.shared.lanes=0);Gn|=o,e.lanes=o,e.memoizedState=h}}function is(e,n,t){if(e=n.effects,n.effects=null,e!==null)for(n=0;n<e.length;n++){var r=e[n],l=r.callback;if(l!==null){if(r.callback=null,r=t,typeof l!="function")throw Error(y(191,l));l.call(r)}}}var Cr={},Ze=Rn(Cr),vr=Rn(Cr),gr=Rn(Cr);function Un(e){if(e===Cr)throw Error(y(174));return e}function Go(e,n){switch(F(gr,n),F(vr,e),F(Ze,Cr),e=n.nodeType,e){case 9:case 11:n=(n=n.documentElement)?n.namespaceURI:Oi(null,"");break;default:e=e===8?n.parentNode:n,n=e.namespaceURI||null,e=e.tagName,n=Oi(n,e)}U(Ze),F(Ze,n)}function Et(){U(Ze),U(vr),U(gr)}function Ja(e){Un(gr.current);var n=Un(Ze.current),t=Oi(n,e.type);n!==t&&(F(vr,e),F(Ze,t))}function Yo(e){vr.current===e&&(U(Ze),U(vr))}var H=Rn(0);function xl(e){for(var n=e;n!==null;){if(n.tag===13){var t=n.memoizedState;if(t!==null&&(t=t.dehydrated,t===null||t.data==="$?"||t.data==="$!"))return n}else if(n.tag===19&&n.memoizedProps.revealOrder!==void 0){if(n.flags&128)return n}else if(n.child!==null){n.child.return=n,n=n.child;continue}if(n===e)break;for(;n.sibling===null;){if(n.return===null||n.return===e)return null;n=n.return}n.sibling.return=n.return,n=n.sibling}return null}var hi=[];function Xo(){for(var e=0;e<hi.length;e++)hi[e]._workInProgressVersionPrimary=null;hi.length=0}var el=an.ReactCurrentDispatcher,mi=an.ReactCurrentBatchConfig,Kn=0,K=null,b=null,ne=null,_l=!1,nr=!1,yr=0,rp=0;function oe(){throw Error(y(321))}function Zo(e,n){if(n===null)return!1;for(var t=0;t<n.length&&t<e.length;t++)if(!Ve(e[t],n[t]))return!1;return!0}function Jo(e,n,t,r,l,i){if(Kn=i,K=n,n.memoizedState=null,n.updateQueue=null,n.lanes=0,el.current=e===null||e.memoizedState===null?up:sp,e=t(r,l),nr){i=0;do{if(nr=!1,yr=0,25<=i)throw Error(y(301));i+=1,ne=b=null,n.updateQueue=null,el.current=ap,e=t(r,l)}while(nr)}if(el.current=El,n=b!==null&&b.next!==null,Kn=0,ne=b=K=null,_l=!1,n)throw Error(y(300));return e}function qo(){var e=yr!==0;return yr=0,e}function Ge(){var e={memoizedState:null,baseState:null,baseQueue:null,queue:null,next:null};return ne===null?K.memoizedState=ne=e:ne=ne.next=e,ne}function Ie(){if(b===null){var e=K.alternate;e=e!==null?e.memoizedState:null}else e=b.next;var n=ne===null?K.memoizedState:ne.next;if(n!==null)ne=n,b=e;else{if(e===null)throw Error(y(310));b=e,e={memoizedState:b.memoizedState,baseState:b.baseState,baseQueue:b.baseQueue,queue:b.queue,next:null},ne===null?K.memoizedState=ne=e:ne=ne.next=e}return ne}function wr(e,n){return typeof n=="function"?n(e):n}function vi(e){var n=Ie(),t=n.queue;if(t===null)throw Error(y(311));t.lastRenderedReducer=e;var r=b,l=r.baseQueue,i=t.pending;if(i!==null){if(l!==null){var o=l.next;l.next=i.next,i.next=o}r.baseQueue=l=i,t.pending=null}if(l!==null){i=l.next,r=r.baseState;var u=o=null,s=null,d=i;do{var v=d.lane;if((Kn&v)===v)s!==null&&(s=s.next={lane:0,action:d.action,hasEagerState:d.hasEagerState,eagerState:d.eagerState,next:null}),r=d.hasEagerState?d.eagerState:e(r,d.action);else{var h={lane:v,action:d.action,hasEagerState:d.hasEagerState,eagerState:d.eagerState,next:null};s===null?(u=s=h,o=r):s=s.next=h,K.lanes|=v,Gn|=v}d=d.next}while(d!==null&&d!==i);s===null?o=r:s.next=u,Ve(r,n.memoizedState)||(ge=!0),n.memoizedState=r,n.baseState=o,n.baseQueue=s,t.lastRenderedState=r}if(e=t.interleaved,e!==null){l=e;do i=l.lane,K.lanes|=i,Gn|=i,l=l.next;while(l!==e)}else l===null&&(t.lanes=0);return[n.memoizedState,t.dispatch]}function gi(e){var n=Ie(),t=n.queue;if(t===null)throw Error(y(311));t.lastRenderedReducer=e;var r=t.dispatch,l=t.pending,i=n.memoizedState;if(l!==null){t.pending=null;var o=l=l.next;do i=e(i,o.action),o=o.next;while(o!==l);Ve(i,n.memoizedState)||(ge=!0),n.memoizedState=i,n.baseQueue===null&&(n.baseState=i),t.lastRenderedState=i}return[i,r]}function qa(){}function ba(e,n){var t=K,r=Ie(),l=n(),i=!Ve(r.memoizedState,l);if(i&&(r.memoizedState=l,ge=!0),r=r.queue,bo(tc.bind(null,t,r,e),[e]),r.getSnapshot!==n||i||ne!==null&&ne.memoizedState.tag&1){if(t.flags|=2048,Sr(9,nc.bind(null,t,r,l,n),void 0,null),te===null)throw Error(y(349));Kn&30||ec(t,n,l)}return l}function ec(e,n,t){e.flags|=16384,e={getSnapshot:n,value:t},n=K.updateQueue,n===null?(n={lastEffect:null,stores:null},K.updateQueue=n,n.stores=[e]):(t=n.stores,t===null?n.stores=[e]:t.push(e))}function nc(e,n,t,r){n.value=t,n.getSnapshot=r,rc(n)&&lc(e)}function tc(e,n,t){return t(function(){rc(n)&&lc(e)})}function rc(e){var n=e.getSnapshot;e=e.value;try{var t=n();return!Ve(e,t)}catch{return!0}}function lc(e){var n=un(e,1);n!==null&&We(n,e,1,-1)}function os(e){var n=Ge();return typeof e=="function"&&(e=e()),n.memoizedState=n.baseState=e,e={pending:null,interleaved:null,lanes:0,dispatch:null,lastRenderedReducer:wr,lastRenderedState:e},n.queue=e,e=e.dispatch=op.bind(null,K,e),[n.memoizedState,e]}function Sr(e,n,t,r){return e={tag:e,create:n,destroy:t,deps:r,next:null},n=K.updateQueue,n===null?(n={lastEffect:null,stores:null},K.updateQueue=n,n.lastEffect=e.next=e):(t=n.lastEffect,t===null?n.lastEffect=e.next=e:(r=t.next,t.next=e,e.next=r,n.lastEffect=e)),e}function ic(){return Ie().memoizedState}function nl(e,n,t,r){var l=Ge();K.flags|=e,l.memoizedState=Sr(1|n,t,void 0,r===void 0?null:r)}function Al(e,n,t,r){var l=Ie();r=r===void 0?null:r;var i=void 0;if(b!==null){var o=b.memoizedState;if(i=o.destroy,r!==null&&Zo(r,o.deps)){l.memoizedState=Sr(n,t,i,r);return}}K.flags|=e,l.memoizedState=Sr(1|n,t,i,r)}function us(e,n){return nl(8390656,8,e,n)}function bo(e,n){return Al(2048,8,e,n)}function oc(e,n){return Al(4,2,e,n)}function uc(e,n){return Al(4,4,e,n)}function sc(e,n){if(typeof n=="function")return e=e(),n(e),function(){n(null)};if(n!=null)return e=e(),n.current=e,function(){n.current=null}}function ac(e,n,t){return t=t!=null?t.concat([e]):null,Al(4,4,sc.bind(null,n,e),t)}function eu(){}function cc(e,n){var t=Ie();n=n===void 0?null:n;var r=t.memoizedState;return r!==null&&n!==null&&Zo(n,r[1])?r[0]:(t.memoizedState=[e,n],e)}function dc(e,n){var t=Ie();n=n===void 0?null:n;var r=t.memoizedState;return r!==null&&n!==null&&Zo(n,r[1])?r[0]:(e=e(),t.memoizedState=[e,n],e)}function fc(e,n,t){return Kn&21?(Ve(t,n)||(t=ga(),K.lanes|=t,Gn|=t,e.baseState=!0),n):(e.baseState&&(e.baseState=!1,ge=!0),e.memoizedState=t)}function lp(e,n){var t=D;D=t!==0&&4>t?t:4,e(!0);var r=mi.transition;mi.transition={};try{e(!1),n()}finally{D=t,mi.transition=r}}function pc(){return Ie().memoizedState}function ip(e,n,t){var r=En(e);if(t={lane:r,action:t,hasEagerState:!1,eagerState:null,next:null},hc(e))mc(n,t);else if(t=Xa(e,n,t,r),t!==null){var l=de();We(t,e,r,l),vc(t,n,r)}}function op(e,n,t){var r=En(e),l={lane:r,action:t,hasEagerState:!1,eagerState:null,next:null};if(hc(e))mc(n,l);else{var i=e.alternate;if(e.lanes===0&&(i===null||i.lanes===0)&&(i=n.lastRenderedReducer,i!==null))try{var o=n.lastRenderedState,u=i(o,t);if(l.hasEagerState=!0,l.eagerState=u,Ve(u,o)){var s=n.interleaved;s===null?(l.next=l,Ho(n)):(l.next=s.next,s.next=l),n.interleaved=l;return}}catch{}finally{}t=Xa(e,n,l,r),t!==null&&(l=de(),We(t,e,r,l),vc(t,n,r))}}function hc(e){var n=e.alternate;return e===K||n!==null&&n===K}function mc(e,n){nr=_l=!0;var t=e.pending;t===null?n.next=n:(n.next=t.next,t.next=n),e.pending=n}function vc(e,n,t){if(t&4194240){var r=n.lanes;r&=e.pendingLanes,t|=r,n.lanes=t,zo(e,t)}}var El={readContext:Oe,useCallback:oe,useContext:oe,useEffect:oe,useImperativeHandle:oe,useInsertionEffect:oe,useLayoutEffect:oe,useMemo:oe,useReducer:oe,useRef:oe,useState:oe,useDebugValue:oe,useDeferredValue:oe,useTransition:oe,useMutableSource:oe,useSyncExternalStore:oe,useId:oe,unstable_isNewReconciler:!1},up={readContext:Oe,useCallback:function(e,n){return Ge().memoizedState=[e,n===void 0?null:n],e},useContext:Oe,useEffect:us,useImperativeHandle:function(e,n,t){return t=t!=null?t.concat([e]):null,nl(4194308,4,sc.bind(null,n,e),t)},useLayoutEffect:function(e,n){return nl(4194308,4,e,n)},useInsertionEffect:function(e,n){return nl(4,2,e,n)},useMemo:function(e,n){var t=Ge();return n=n===void 0?null:n,e=e(),t.memoizedState=[e,n],e},useReducer:function(e,n,t){var r=Ge();return n=t!==void 0?t(n):n,r.memoizedState=r.baseState=n,e={pending:null,interleaved:null,lanes:0,dispatch:null,lastRenderedReducer:e,lastRenderedState:n},r.queue=e,e=e.dispatch=ip.bind(null,K,e),[r.memoizedState,e]},useRef:function(e){var n=Ge();return e={current:e},n.memoizedState=e},useState:os,useDebugValue:eu,useDeferredValue:function(e){return Ge().memoizedState=e},useTransition:function(){var e=os(!1),n=e[0];return e=lp.bind(null,e[1]),Ge().memoizedState=e,[n,e]},useMutableSource:function(){},useSyncExternalStore:function(e,n,t){var r=K,l=Ge();if(B){if(t===void 0)throw Error(y(407));t=t()}else{if(t=n(),te===null)throw Error(y(349));Kn&30||ec(r,n,t)}l.memoizedState=t;var i={value:t,getSnapshot:n};return l.queue=i,us(tc.bind(null,r,i,e),[e]),r.flags|=2048,Sr(9,nc.bind(null,r,i,t,n),void 0,null),t},useId:function(){var e=Ge(),n=te.identifierPrefix;if(B){var t=tn,r=nn;t=(r&~(1<<32-Qe(r)-1)).toString(32)+t,n=":"+n+"R"+t,t=yr++,0<t&&(n+="H"+t.toString(32)),n+=":"}else t=rp++,n=":"+n+"r"+t.toString(32)+":";return e.memoizedState=n},unstable_isNewReconciler:!1},sp={readContext:Oe,useCallback:cc,useContext:Oe,useEffect:bo,useImperativeHandle:ac,useInsertionEffect:oc,useLayoutEffect:uc,useMemo:dc,useReducer:vi,useRef:ic,useState:function(){return vi(wr)},useDebugValue:eu,useDeferredValue:function(e){var n=Ie();return fc(n,b.memoizedState,e)},useTransition:function(){var e=vi(wr)[0],n=Ie().memoizedState;return[e,n]},useMutableSource:qa,useSyncExternalStore:ba,useId:pc,unstable_isNewReconciler:!1},ap={readContext:Oe,useCallback:cc,useContext:Oe,useEffect:bo,useImperativeHandle:ac,useInsertionEffect:oc,useLayoutEffect:uc,useMemo:dc,useReducer:gi,useRef:ic,useState:function(){return gi(wr)},useDebugValue:eu,useDeferredValue:function(e){var n=Ie();return b===null?n.memoizedState=e:fc(n,b.memoizedState,e)},useTransition:function(){var e=gi(wr)[0],n=Ie().memoizedState;return[e,n]},useMutableSource:qa,useSyncExternalStore:ba,useId:pc,unstable_isNewReconciler:!1};function $e(e,n){if(e&&e.defaultProps){n=G({},n),e=e.defaultProps;for(var t in e)n[t]===void 0&&(n[t]=e[t]);return n}return n}function no(e,n,t,r){n=e.memoizedState,t=t(r,n),t=t==null?n:G({},n,t),e.memoizedState=t,e.lanes===0&&(e.updateQueue.baseState=t)}var $l={isMounted:function(e){return(e=e._reactInternals)?Zn(e)===e:!1},enqueueSetState:function(e,n,t){e=e._reactInternals;var r=de(),l=En(e),i=rn(r,l);i.payload=n,t!=null&&(i.callback=t),n=xn(e,i,l),n!==null&&(We(n,e,l,r),br(n,e,l))},enqueueReplaceState:function(e,n,t){e=e._reactInternals;var r=de(),l=En(e),i=rn(r,l);i.tag=1,i.payload=n,t!=null&&(i.callback=t),n=xn(e,i,l),n!==null&&(We(n,e,l,r),br(n,e,l))},enqueueForceUpdate:function(e,n){e=e._reactInternals;var t=de(),r=En(e),l=rn(t,r);l.tag=2,n!=null&&(l.callback=n),n=xn(e,l,r),n!==null&&(We(n,e,r,t),br(n,e,r))}};function ss(e,n,t,r,l,i,o){return e=e.stateNode,typeof e.shouldComponentUpdate=="function"?e.shouldComponentUpdate(r,i,o):n.prototype&&n.prototype.isPureReactComponent?!fr(t,r)||!fr(l,i):!0}function gc(e,n,t){var r=!1,l=Pn,i=n.contextType;return typeof i=="object"&&i!==null?i=Oe(i):(l=we(n)?Vn:ae.current,r=n.contextTypes,i=(r=r!=null)?kt(e,l):Pn),n=new n(t,i),e.memoizedState=n.state!==null&&n.state!==void 0?n.state:null,n.updater=$l,e.stateNode=n,n._reactInternals=e,r&&(e=e.stateNode,e.__reactInternalMemoizedUnmaskedChildContext=l,e.__reactInternalMemoizedMaskedChildContext=i),n}function as(e,n,t,r){e=n.state,typeof n.componentWillReceiveProps=="function"&&n.componentWillReceiveProps(t,r),typeof n.UNSAFE_componentWillReceiveProps=="function"&&n.UNSAFE_componentWillReceiveProps(t,r),n.state!==e&&$l.enqueueReplaceState(n,n.state,null)}function to(e,n,t,r){var l=e.stateNode;l.props=t,l.state=e.memoizedState,l.refs={},Ko(e);var i=n.contextType;typeof i=="object"&&i!==null?l.context=Oe(i):(i=we(n)?Vn:ae.current,l.context=kt(e,i)),l.state=e.memoizedState,i=n.getDerivedStateFromProps,typeof i=="function"&&(no(e,n,i,t),l.state=e.memoizedState),typeof n.getDerivedStateFromProps=="function"||typeof l.getSnapshotBeforeUpdate=="function"||typeof l.UNSAFE_componentWillMount!="function"&&typeof l.componentWillMount!="function"||(n=l.state,typeof l.componentWillMount=="function"&&l.componentWillMount(),typeof l.UNSAFE_componentWillMount=="function"&&l.UNSAFE_componentWillMount(),n!==l.state&&$l.enqueueReplaceState(l,l.state,null),kl(e,t,l,r),l.state=e.memoizedState),typeof l.componentDidMount=="function"&&(e.flags|=4194308)}function Nt(e,n){try{var t="",r=n;do t+=Dd(r),r=r.return;while(r);var l=t}catch(i){l=`
-Error generating stack: `+i.message+`
-`+i.stack}return{value:e,source:n,stack:l,digest:null}}function yi(e,n,t){return{value:e,source:null,stack:t??null,digest:n??null}}function ro(e,n){try{console.error(n.value)}catch(t){setTimeout(function(){throw t})}}var cp=typeof WeakMap=="function"?WeakMap:Map;function yc(e,n,t){t=rn(-1,t),t.tag=3,t.payload={element:null};var r=n.value;return t.callback=function(){Cl||(Cl=!0,ho=r),ro(e,n)},t}function wc(e,n,t){t=rn(-1,t),t.tag=3;var r=e.type.getDerivedStateFromError;if(typeof r=="function"){var l=n.value;t.payload=function(){return r(l)},t.callback=function(){ro(e,n)}}var i=e.stateNode;return i!==null&&typeof i.componentDidCatch=="function"&&(t.callback=function(){ro(e,n),typeof r!="function"&&(_n===null?_n=new Set([this]):_n.add(this));var o=n.stack;this.componentDidCatch(n.value,{componentStack:o!==null?o:""})}),t}function cs(e,n,t){var r=e.pingCache;if(r===null){r=e.pingCache=new cp;var l=new Set;r.set(n,l)}else l=r.get(n),l===void 0&&(l=new Set,r.set(n,l));l.has(t)||(l.add(t),e=Ep.bind(null,e,n,t),n.then(e,e))}function ds(e){do{var n;if((n=e.tag===13)&&(n=e.memoizedState,n=n!==null?n.dehydrated!==null:!0),n)return e;e=e.return}while(e!==null);return null}function fs(e,n,t,r,l){return e.mode&1?(e.flags|=65536,e.lanes=l,e):(e===n?e.flags|=65536:(e.flags|=128,t.flags|=131072,t.flags&=-52805,t.tag===1&&(t.alternate===null?t.tag=17:(n=rn(-1,1),n.tag=2,xn(t,n,1))),t.lanes|=1),e)}var dp=an.ReactCurrentOwner,ge=!1;function ce(e,n,t,r){n.child=e===null?Ya(n,null,t,r):_t(n,e.child,t,r)}function ps(e,n,t,r,l){t=t.render;var i=n.ref;return yt(n,l),r=Jo(e,n,t,r,i,l),t=qo(),e!==null&&!ge?(n.updateQueue=e.updateQueue,n.flags&=-2053,e.lanes&=~l,sn(e,n,l)):(B&&t&&$o(n),n.flags|=1,ce(e,n,r,l),n.child)}function hs(e,n,t,r,l){if(e===null){var i=t.type;return typeof i=="function"&&!su(i)&&i.defaultProps===void 0&&t.compare===null&&t.defaultProps===void 0?(n.tag=15,n.type=i,Sc(e,n,i,r,l)):(e=il(t.type,null,r,n,n.mode,l),e.ref=n.ref,e.return=n,n.child=e)}if(i=e.child,!(e.lanes&l)){var o=i.memoizedProps;if(t=t.compare,t=t!==null?t:fr,t(o,r)&&e.ref===n.ref)return sn(e,n,l)}return n.flags|=1,e=Nn(i,r),e.ref=n.ref,e.return=n,n.child=e}function Sc(e,n,t,r,l){if(e!==null){var i=e.memoizedProps;if(fr(i,r)&&e.ref===n.ref)if(ge=!1,n.pendingProps=r=i,(e.lanes&l)!==0)e.flags&131072&&(ge=!0);else return n.lanes=e.lanes,sn(e,n,l)}return lo(e,n,t,r,l)}function kc(e,n,t){var r=n.pendingProps,l=r.children,i=e!==null?e.memoizedState:null;if(r.mode==="hidden")if(!(n.mode&1))n.memoizedState={baseLanes:0,cachePool:null,transitions:null},F(pt,_e),_e|=t;else{if(!(t&1073741824))return e=i!==null?i.baseLanes|t:t,n.lanes=n.childLanes=1073741824,n.memoizedState={baseLanes:e,cachePool:null,transitions:null},n.updateQueue=null,F(pt,_e),_e|=e,null;n.memoizedState={baseLanes:0,cachePool:null,transitions:null},r=i!==null?i.baseLanes:t,F(pt,_e),_e|=r}else i!==null?(r=i.baseLanes|t,n.memoizedState=null):r=t,F(pt,_e),_e|=r;return ce(e,n,l,t),n.child}function xc(e,n){var t=n.ref;(e===null&&t!==null||e!==null&&e.ref!==t)&&(n.flags|=512,n.flags|=2097152)}function lo(e,n,t,r,l){var i=we(t)?Vn:ae.current;return i=kt(n,i),yt(n,l),t=Jo(e,n,t,r,i,l),r=qo(),e!==null&&!ge?(n.updateQueue=e.updateQueue,n.flags&=-2053,e.lanes&=~l,sn(e,n,l)):(B&&r&&$o(n),n.flags|=1,ce(e,n,t,l),n.child)}function ms(e,n,t,r,l){if(we(t)){var i=!0;vl(n)}else i=!1;if(yt(n,l),n.stateNode===null)tl(e,n),gc(n,t,r),to(n,t,r,l),r=!0;else if(e===null){var o=n.stateNode,u=n.memoizedProps;o.props=u;var s=o.context,d=t.contextType;typeof d=="object"&&d!==null?d=Oe(d):(d=we(t)?Vn:ae.current,d=kt(n,d));var v=t.getDerivedStateFromProps,h=typeof v=="function"||typeof o.getSnapshotBeforeUpdate=="function";h||typeof o.UNSAFE_componentWillReceiveProps!="function"&&typeof o.componentWillReceiveProps!="function"||(u!==r||s!==d)&&as(n,o,r,d),pn=!1;var m=n.memoizedState;o.state=m,kl(n,r,o,l),s=n.memoizedState,u!==r||m!==s||ye.current||pn?(typeof v=="function"&&(no(n,t,v,r),s=n.memoizedState),(u=pn||ss(n,t,u,r,m,s,d))?(h||typeof o.UNSAFE_componentWillMount!="function"&&typeof o.componentWillMount!="function"||(typeof o.componentWillMount=="function"&&o.componentWillMount(),typeof o.UNSAFE_componentWillMount=="function"&&o.UNSAFE_componentWillMount()),typeof o.componentDidMount=="function"&&(n.flags|=4194308)):(typeof o.componentDidMount=="function"&&(n.flags|=4194308),n.memoizedProps=r,n.memoizedState=s),o.props=r,o.state=s,o.context=d,r=u):(typeof o.componentDidMount=="function"&&(n.flags|=4194308),r=!1)}else{o=n.stateNode,Za(e,n),u=n.memoizedProps,d=n.type===n.elementType?u:$e(n.type,u),o.props=d,h=n.pendingProps,m=o.context,s=t.contextType,typeof s=="object"&&s!==null?s=Oe(s):(s=we(t)?Vn:ae.current,s=kt(n,s));var w=t.getDerivedStateFromProps;(v=typeof w=="function"||typeof o.getSnapshotBeforeUpdate=="function")||typeof o.UNSAFE_componentWillReceiveProps!="function"&&typeof o.componentWillReceiveProps!="function"||(u!==h||m!==s)&&as(n,o,r,s),pn=!1,m=n.memoizedState,o.state=m,kl(n,r,o,l);var k=n.memoizedState;u!==h||m!==k||ye.current||pn?(typeof w=="function"&&(no(n,t,w,r),k=n.memoizedState),(d=pn||ss(n,t,d,r,m,k,s)||!1)?(v||typeof o.UNSAFE_componentWillUpdate!="function"&&typeof o.componentWillUpdate!="function"||(typeof o.componentWillUpdate=="function"&&o.componentWillUpdate(r,k,s),typeof o.UNSAFE_componentWillUpdate=="function"&&o.UNSAFE_componentWillUpdate(r,k,s)),typeof o.componentDidUpdate=="function"&&(n.flags|=4),typeof o.getSnapshotBeforeUpdate=="function"&&(n.flags|=1024)):(typeof o.componentDidUpdate!="function"||u===e.memoizedProps&&m===e.memoizedState||(n.flags|=4),typeof o.getSnapshotBeforeUpdate!="function"||u===e.memoizedProps&&m===e.memoizedState||(n.flags|=1024),n.memoizedProps=r,n.memoizedState=k),o.props=r,o.state=k,o.context=s,r=d):(typeof o.componentDidUpdate!="function"||u===e.memoizedProps&&m===e.memoizedState||(n.flags|=4),typeof o.getSnapshotBeforeUpdate!="function"||u===e.memoizedProps&&m===e.memoizedState||(n.flags|=1024),r=!1)}return io(e,n,t,r,i,l)}function io(e,n,t,r,l,i){xc(e,n);var o=(n.flags&128)!==0;if(!r&&!o)return l&&es(n,t,!1),sn(e,n,i);r=n.stateNode,dp.current=n;var u=o&&typeof t.getDerivedStateFromError!="function"?null:r.render();return n.flags|=1,e!==null&&o?(n.child=_t(n,e.child,null,i),n.child=_t(n,null,u,i)):ce(e,n,u,i),n.memoizedState=r.state,l&&es(n,t,!0),n.child}function _c(e){var n=e.stateNode;n.pendingContext?bu(e,n.pendingContext,n.pendingContext!==n.context):n.context&&bu(e,n.context,!1),Go(e,n.containerInfo)}function vs(e,n,t,r,l){return xt(),Bo(l),n.flags|=256,ce(e,n,t,r),n.child}var oo={dehydrated:null,treeContext:null,retryLane:0};function uo(e){return{baseLanes:e,cachePool:null,transitions:null}}function Ec(e,n,t){var r=n.pendingProps,l=H.current,i=!1,o=(n.flags&128)!==0,u;if((u=o)||(u=e!==null&&e.memoizedState===null?!1:(l&2)!==0),u?(i=!0,n.flags&=-129):(e===null||e.memoizedState!==null)&&(l|=1),F(H,l&1),e===null)return bi(n),e=n.memoizedState,e!==null&&(e=e.dehydrated,e!==null)?(n.mode&1?e.data==="$!"?n.lanes=8:n.lanes=1073741824:n.lanes=1,null):(o=r.children,e=r.fallback,i?(r=n.mode,i=n.child,o={mode:"hidden",children:o},!(r&1)&&i!==null?(i.childLanes=0,i.pendingProps=o):i=Ql(o,r,0,null),e=Qn(e,r,t,null),i.return=n,e.return=n,i.sibling=e,n.child=i,n.child.memoizedState=uo(t),n.memoizedState=oo,e):nu(n,o));if(l=e.memoizedState,l!==null&&(u=l.dehydrated,u!==null))return fp(e,n,o,r,u,l,t);if(i){i=r.fallback,o=n.mode,l=e.child,u=l.sibling;var s={mode:"hidden",children:r.children};return!(o&1)&&n.child!==l?(r=n.child,r.childLanes=0,r.pendingProps=s,n.deletions=null):(r=Nn(l,s),r.subtreeFlags=l.subtreeFlags&14680064),u!==null?i=Nn(u,i):(i=Qn(i,o,t,null),i.flags|=2),i.return=n,r.return=n,r.sibling=i,n.child=r,r=i,i=n.child,o=e.child.memoizedState,o=o===null?uo(t):{baseLanes:o.baseLanes|t,cachePool:null,transitions:o.transitions},i.memoizedState=o,i.childLanes=e.childLanes&~t,n.memoizedState=oo,r}return i=e.child,e=i.sibling,r=Nn(i,{mode:"visible",children:r.children}),!(n.mode&1)&&(r.lanes=t),r.return=n,r.sibling=null,e!==null&&(t=n.deletions,t===null?(n.deletions=[e],n.flags|=16):t.push(e)),n.child=r,n.memoizedState=null,r}function nu(e,n){return n=Ql({mode:"visible",children:n},e.mode,0,null),n.return=e,e.child=n}function Wr(e,n,t,r){return r!==null&&Bo(r),_t(n,e.child,null,t),e=nu(n,n.pendingProps.children),e.flags|=2,n.memoizedState=null,e}function fp(e,n,t,r,l,i,o){if(t)return n.flags&256?(n.flags&=-257,r=yi(Error(y(422))),Wr(e,n,o,r)):n.memoizedState!==null?(n.child=e.child,n.flags|=128,null):(i=r.fallback,l=n.mode,r=Ql({mode:"visible",children:r.children},l,0,null),i=Qn(i,l,o,null),i.flags|=2,r.return=n,i.return=n,r.sibling=i,n.child=r,n.mode&1&&_t(n,e.child,null,o),n.child.memoizedState=uo(o),n.memoizedState=oo,i);if(!(n.mode&1))return Wr(e,n,o,null);if(l.data==="$!"){if(r=l.nextSibling&&l.nextSibling.dataset,r)var u=r.dgst;return r=u,i=Error(y(419)),r=yi(i,r,void 0),Wr(e,n,o,r)}if(u=(o&e.childLanes)!==0,ge||u){if(r=te,r!==null){switch(o&-o){case 4:l=2;break;case 16:l=8;break;case 64:case 128:case 256:case 512:case 1024:case 2048:case 4096:case 8192:case 16384:case 32768:case 65536:case 131072:case 262144:case 524288:case 1048576:case 2097152:case 4194304:case 8388608:case 16777216:case 33554432:case 67108864:l=32;break;case 536870912:l=268435456;break;default:l=0}l=l&(r.suspendedLanes|o)?0:l,l!==0&&l!==i.retryLane&&(i.retryLane=l,un(e,l),We(r,e,l,-1))}return uu(),r=yi(Error(y(421))),Wr(e,n,o,r)}return l.data==="$?"?(n.flags|=128,n.child=e.child,n=Np.bind(null,e),l._reactRetry=n,null):(e=i.treeContext,Ee=kn(l.nextSibling),Ne=n,B=!0,Be=null,e!==null&&(Re[ze++]=nn,Re[ze++]=tn,Re[ze++]=Hn,nn=e.id,tn=e.overflow,Hn=n),n=nu(n,r.children),n.flags|=4096,n)}function gs(e,n,t){e.lanes|=n;var r=e.alternate;r!==null&&(r.lanes|=n),eo(e.return,n,t)}function wi(e,n,t,r,l){var i=e.memoizedState;i===null?e.memoizedState={isBackwards:n,rendering:null,renderingStartTime:0,last:r,tail:t,tailMode:l}:(i.isBackwards=n,i.rendering=null,i.renderingStartTime=0,i.last=r,i.tail=t,i.tailMode=l)}function Nc(e,n,t){var r=n.pendingProps,l=r.revealOrder,i=r.tail;if(ce(e,n,r.children,t),r=H.current,r&2)r=r&1|2,n.flags|=128;else{if(e!==null&&e.flags&128)e:for(e=n.child;e!==null;){if(e.tag===13)e.memoizedState!==null&&gs(e,t,n);else if(e.tag===19)gs(e,t,n);else if(e.child!==null){e.child.return=e,e=e.child;continue}if(e===n)break e;for(;e.sibling===null;){if(e.return===null||e.return===n)break e;e=e.return}e.sibling.return=e.return,e=e.sibling}r&=1}if(F(H,r),!(n.mode&1))n.memoizedState=null;else switch(l){case"forwards":for(t=n.child,l=null;t!==null;)e=t.alternate,e!==null&&xl(e)===null&&(l=t),t=t.sibling;t=l,t===null?(l=n.child,n.child=null):(l=t.sibling,t.sibling=null),wi(n,!1,l,t,i);break;case"backwards":for(t=null,l=n.child,n.child=null;l!==null;){if(e=l.alternate,e!==null&&xl(e)===null){n.child=l;break}e=l.sibling,l.sibling=t,t=l,l=e}wi(n,!0,t,null,i);break;case"together":wi(n,!1,null,null,void 0);break;default:n.memoizedState=null}return n.child}function tl(e,n){!(n.mode&1)&&e!==null&&(e.alternate=null,n.alternate=null,n.flags|=2)}function sn(e,n,t){if(e!==null&&(n.dependencies=e.dependencies),Gn|=n.lanes,!(t&n.childLanes))return null;if(e!==null&&n.child!==e.child)throw Error(y(153));if(n.child!==null){for(e=n.child,t=Nn(e,e.pendingProps),n.child=t,t.return=n;e.sibling!==null;)e=e.sibling,t=t.sibling=Nn(e,e.pendingProps),t.return=n;t.sibling=null}return n.child}function pp(e,n,t){switch(n.tag){case 3:_c(n),xt();break;case 5:Ja(n);break;case 1:we(n.type)&&vl(n);break;case 4:Go(n,n.stateNode.containerInfo);break;case 10:var r=n.type._context,l=n.memoizedProps.value;F(wl,r._currentValue),r._currentValue=l;break;case 13:if(r=n.memoizedState,r!==null)return r.dehydrated!==null?(F(H,H.current&1),n.flags|=128,null):t&n.child.childLanes?Ec(e,n,t):(F(H,H.current&1),e=sn(e,n,t),e!==null?e.sibling:null);F(H,H.current&1);break;case 19:if(r=(t&n.childLanes)!==0,e.flags&128){if(r)return Nc(e,n,t);n.flags|=128}if(l=n.memoizedState,l!==null&&(l.rendering=null,l.tail=null,l.lastEffect=null),F(H,H.current),r)break;return null;case 22:case 23:return n.lanes=0,kc(e,n,t)}return sn(e,n,t)}var Cc,so,jc,Pc;Cc=function(e,n){for(var t=n.child;t!==null;){if(t.tag===5||t.tag===6)e.appendChild(t.stateNode);else if(t.tag!==4&&t.child!==null){t.child.return=t,t=t.child;continue}if(t===n)break;for(;t.sibling===null;){if(t.return===null||t.return===n)return;t=t.return}t.sibling.return=t.return,t=t.sibling}};so=function(){};jc=function(e,n,t,r){var l=e.memoizedProps;if(l!==r){e=n.stateNode,Un(Ze.current);var i=null;switch(t){case"input":l=Ri(e,l),r=Ri(e,r),i=[];break;case"select":l=G({},l,{value:void 0}),r=G({},r,{value:void 0}),i=[];break;case"textarea":l=Mi(e,l),r=Mi(e,r),i=[];break;default:typeof l.onClick!="function"&&typeof r.onClick=="function"&&(e.onclick=hl)}Ii(t,r);var o;t=null;for(d in l)if(!r.hasOwnProperty(d)&&l.hasOwnProperty(d)&&l[d]!=null)if(d==="style"){var u=l[d];for(o in u)u.hasOwnProperty(o)&&(t||(t={}),t[o]="")}else d!=="dangerouslySetInnerHTML"&&d!=="children"&&d!=="suppressContentEditableWarning"&&d!=="suppressHydrationWarning"&&d!=="autoFocus"&&(ir.hasOwnProperty(d)?i||(i=[]):(i=i||[]).push(d,null));for(d in r){var s=r[d];if(u=l!=null?l[d]:void 0,r.hasOwnProperty(d)&&s!==u&&(s!=null||u!=null))if(d==="style")if(u){for(o in u)!u.hasOwnProperty(o)||s&&s.hasOwnProperty(o)||(t||(t={}),t[o]="");for(o in s)s.hasOwnProperty(o)&&u[o]!==s[o]&&(t||(t={}),t[o]=s[o])}else t||(i||(i=[]),i.push(d,t)),t=s;else d==="dangerouslySetInnerHTML"?(s=s?s.__html:void 0,u=u?u.__html:void 0,s!=null&&u!==s&&(i=i||[]).push(d,s)):d==="children"?typeof s!="string"&&typeof s!="number"||(i=i||[]).push(d,""+s):d!=="suppressContentEditableWarning"&&d!=="suppressHydrationWarning"&&(ir.hasOwnProperty(d)?(s!=null&&d==="onScroll"&&$("scroll",e),i||u===s||(i=[])):(i=i||[]).push(d,s))}t&&(i=i||[]).push("style",t);var d=i;(n.updateQueue=d)&&(n.flags|=4)}};Pc=function(e,n,t,r){t!==r&&(n.flags|=4)};function Vt(e,n){if(!B)switch(e.tailMode){case"hidden":n=e.tail;for(var t=null;n!==null;)n.alternate!==null&&(t=n),n=n.sibling;t===null?e.tail=null:t.sibling=null;break;case"collapsed":t=e.tail;for(var r=null;t!==null;)t.alternate!==null&&(r=t),t=t.sibling;r===null?n||e.tail===null?e.tail=null:e.tail.sibling=null:r.sibling=null}}function ue(e){var n=e.alternate!==null&&e.alternate.child===e.child,t=0,r=0;if(n)for(var l=e.child;l!==null;)t|=l.lanes|l.childLanes,r|=l.subtreeFlags&14680064,r|=l.flags&14680064,l.return=e,l=l.sibling;else for(l=e.child;l!==null;)t|=l.lanes|l.childLanes,r|=l.subtreeFlags,r|=l.flags,l.return=e,l=l.sibling;return e.subtreeFlags|=r,e.childLanes=t,n}function hp(e,n,t){var r=n.pendingProps;switch(Uo(n),n.tag){case 2:case 16:case 15:case 0:case 11:case 7:case 8:case 12:case 9:case 14:return ue(n),null;case 1:return we(n.type)&&ml(),ue(n),null;case 3:return r=n.stateNode,Et(),U(ye),U(ae),Xo(),r.pendingContext&&(r.context=r.pendingContext,r.pendingContext=null),(e===null||e.child===null)&&(Br(n)?n.flags|=4:e===null||e.memoizedState.isDehydrated&&!(n.flags&256)||(n.flags|=1024,Be!==null&&(go(Be),Be=null))),so(e,n),ue(n),null;case 5:Yo(n);var l=Un(gr.current);if(t=n.type,e!==null&&n.stateNode!=null)jc(e,n,t,r,l),e.ref!==n.ref&&(n.flags|=512,n.flags|=2097152);else{if(!r){if(n.stateNode===null)throw Error(y(166));return ue(n),null}if(e=Un(Ze.current),Br(n)){r=n.stateNode,t=n.type;var i=n.memoizedProps;switch(r[Ye]=n,r[mr]=i,e=(n.mode&1)!==0,t){case"dialog":$("cancel",r),$("close",r);break;case"iframe":case"object":case"embed":$("load",r);break;case"video":case"audio":for(l=0;l<Xt.length;l++)$(Xt[l],r);break;case"source":$("error",r);break;case"img":case"image":case"link":$("error",r),$("load",r);break;case"details":$("toggle",r);break;case"input":Cu(r,i),$("invalid",r);break;case"select":r._wrapperState={wasMultiple:!!i.multiple},$("invalid",r);break;case"textarea":Pu(r,i),$("invalid",r)}Ii(t,i),l=null;for(var o in i)if(i.hasOwnProperty(o)){var u=i[o];o==="children"?typeof u=="string"?r.textContent!==u&&(i.suppressHydrationWarning!==!0&&Ur(r.textContent,u,e),l=["children",u]):typeof u=="number"&&r.textContent!==""+u&&(i.suppressHydrationWarning!==!0&&Ur(r.textContent,u,e),l=["children",""+u]):ir.hasOwnProperty(o)&&u!=null&&o==="onScroll"&&$("scroll",r)}switch(t){case"input":Lr(r),ju(r,i,!0);break;case"textarea":Lr(r),Tu(r);break;case"select":case"option":break;default:typeof i.onClick=="function"&&(r.onclick=hl)}r=l,n.updateQueue=r,r!==null&&(n.flags|=4)}else{o=l.nodeType===9?l:l.ownerDocument,e==="http://www.w3.org/1999/xhtml"&&(e=ta(t)),e==="http://www.w3.org/1999/xhtml"?t==="script"?(e=o.createElement("div"),e.innerHTML="<script><\/script>",e=e.removeChild(e.firstChild)):typeof r.is=="string"?e=o.createElement(t,{is:r.is}):(e=o.createElement(t),t==="select"&&(o=e,r.multiple?o.multiple=!0:r.size&&(o.size=r.size))):e=o.createElementNS(e,t),e[Ye]=n,e[mr]=r,Cc(e,n,!1,!1),n.stateNode=e;e:{switch(o=Di(t,r),t){case"dialog":$("cancel",e),$("close",e),l=r;break;case"iframe":case"object":case"embed":$("load",e),l=r;break;case"video":case"audio":for(l=0;l<Xt.length;l++)$(Xt[l],e);l=r;break;case"source":$("error",e),l=r;break;case"img":case"image":case"link":$("error",e),$("load",e),l=r;break;case"details":$("toggle",e),l=r;break;case"input":Cu(e,r),l=Ri(e,r),$("invalid",e);break;case"option":l=r;break;case"select":e._wrapperState={wasMultiple:!!r.multiple},l=G({},r,{value:void 0}),$("invalid",e);break;case"textarea":Pu(e,r),l=Mi(e,r),$("invalid",e);break;default:l=r}Ii(t,l),u=l;for(i in u)if(u.hasOwnProperty(i)){var s=u[i];i==="style"?ia(e,s):i==="dangerouslySetInnerHTML"?(s=s?s.__html:void 0,s!=null&&ra(e,s)):i==="children"?typeof s=="string"?(t!=="textarea"||s!=="")&&or(e,s):typeof s=="number"&&or(e,""+s):i!=="suppressContentEditableWarning"&&i!=="suppressHydrationWarning"&&i!=="autoFocus"&&(ir.hasOwnProperty(i)?s!=null&&i==="onScroll"&&$("scroll",e):s!=null&&No(e,i,s,o))}switch(t){case"input":Lr(e),ju(e,r,!1);break;case"textarea":Lr(e),Tu(e);break;case"option":r.value!=null&&e.setAttribute("value",""+jn(r.value));break;case"select":e.multiple=!!r.multiple,i=r.value,i!=null?ht(e,!!r.multiple,i,!1):r.defaultValue!=null&&ht(e,!!r.multiple,r.defaultValue,!0);break;default:typeof l.onClick=="function"&&(e.onclick=hl)}switch(t){case"button":case"input":case"select":case"textarea":r=!!r.autoFocus;break e;case"img":r=!0;break e;default:r=!1}}r&&(n.flags|=4)}n.ref!==null&&(n.flags|=512,n.flags|=2097152)}return ue(n),null;case 6:if(e&&n.stateNode!=null)Pc(e,n,e.memoizedProps,r);else{if(typeof r!="string"&&n.stateNode===null)throw Error(y(166));if(t=Un(gr.current),Un(Ze.current),Br(n)){if(r=n.stateNode,t=n.memoizedProps,r[Ye]=n,(i=r.nodeValue!==t)&&(e=Ne,e!==null))switch(e.tag){case 3:Ur(r.nodeValue,t,(e.mode&1)!==0);break;case 5:e.memoizedProps.suppressHydrationWarning!==!0&&Ur(r.nodeValue,t,(e.mode&1)!==0)}i&&(n.flags|=4)}else r=(t.nodeType===9?t:t.ownerDocument).createTextNode(r),r[Ye]=n,n.stateNode=r}return ue(n),null;case 13:if(U(H),r=n.memoizedState,e===null||e.memoizedState!==null&&e.memoizedState.dehydrated!==null){if(B&&Ee!==null&&n.mode&1&&!(n.flags&128))Ka(),xt(),n.flags|=98560,i=!1;else if(i=Br(n),r!==null&&r.dehydrated!==null){if(e===null){if(!i)throw Error(y(318));if(i=n.memoizedState,i=i!==null?i.dehydrated:null,!i)throw Error(y(317));i[Ye]=n}else xt(),!(n.flags&128)&&(n.memoizedState=null),n.flags|=4;ue(n),i=!1}else Be!==null&&(go(Be),Be=null),i=!0;if(!i)return n.flags&65536?n:null}return n.flags&128?(n.lanes=t,n):(r=r!==null,r!==(e!==null&&e.memoizedState!==null)&&r&&(n.child.flags|=8192,n.mode&1&&(e===null||H.current&1?ee===0&&(ee=3):uu())),n.updateQueue!==null&&(n.flags|=4),ue(n),null);case 4:return Et(),so(e,n),e===null&&pr(n.stateNode.containerInfo),ue(n),null;case 10:return Vo(n.type._context),ue(n),null;case 17:return we(n.type)&&ml(),ue(n),null;case 19:if(U(H),i=n.memoizedState,i===null)return ue(n),null;if(r=(n.flags&128)!==0,o=i.rendering,o===null)if(r)Vt(i,!1);else{if(ee!==0||e!==null&&e.flags&128)for(e=n.child;e!==null;){if(o=xl(e),o!==null){for(n.flags|=128,Vt(i,!1),r=o.updateQueue,r!==null&&(n.updateQueue=r,n.flags|=4),n.subtreeFlags=0,r=t,t=n.child;t!==null;)i=t,e=r,i.flags&=14680066,o=i.alternate,o===null?(i.childLanes=0,i.lanes=e,i.child=null,i.subtreeFlags=0,i.memoizedProps=null,i.memoizedState=null,i.updateQueue=null,i.dependencies=null,i.stateNode=null):(i.childLanes=o.childLanes,i.lanes=o.lanes,i.child=o.child,i.subtreeFlags=0,i.deletions=null,i.memoizedProps=o.memoizedProps,i.memoizedState=o.memoizedState,i.updateQueue=o.updateQueue,i.type=o.type,e=o.dependencies,i.dependencies=e===null?null:{lanes:e.lanes,firstContext:e.firstContext}),t=t.sibling;return F(H,H.current&1|2),n.child}e=e.sibling}i.tail!==null&&X()>Ct&&(n.flags|=128,r=!0,Vt(i,!1),n.lanes=4194304)}else{if(!r)if(e=xl(o),e!==null){if(n.flags|=128,r=!0,t=e.updateQueue,t!==null&&(n.updateQueue=t,n.flags|=4),Vt(i,!0),i.tail===null&&i.tailMode==="hidden"&&!o.alternate&&!B)return ue(n),null}else 2*X()-i.renderingStartTime>Ct&&t!==1073741824&&(n.flags|=128,r=!0,Vt(i,!1),n.lanes=4194304);i.isBackwards?(o.sibling=n.child,n.child=o):(t=i.last,t!==null?t.sibling=o:n.child=o,i.last=o)}return i.tail!==null?(n=i.tail,i.rendering=n,i.tail=n.sibling,i.renderingStartTime=X(),n.sibling=null,t=H.current,F(H,r?t&1|2:t&1),n):(ue(n),null);case 22:case 23:return ou(),r=n.memoizedState!==null,e!==null&&e.memoizedState!==null!==r&&(n.flags|=8192),r&&n.mode&1?_e&1073741824&&(ue(n),n.subtreeFlags&6&&(n.flags|=8192)):ue(n),null;case 24:return null;case 25:return null}throw Error(y(156,n.tag))}function mp(e,n){switch(Uo(n),n.tag){case 1:return we(n.type)&&ml(),e=n.flags,e&65536?(n.flags=e&-65537|128,n):null;case 3:return Et(),U(ye),U(ae),Xo(),e=n.flags,e&65536&&!(e&128)?(n.flags=e&-65537|128,n):null;case 5:return Yo(n),null;case 13:if(U(H),e=n.memoizedState,e!==null&&e.dehydrated!==null){if(n.alternate===null)throw Error(y(340));xt()}return e=n.flags,e&65536?(n.flags=e&-65537|128,n):null;case 19:return U(H),null;case 4:return Et(),null;case 10:return Vo(n.type._context),null;case 22:case 23:return ou(),null;case 24:return null;default:return null}}var Vr=!1,se=!1,vp=typeof WeakSet=="function"?WeakSet:Set,E=null;function ft(e,n){var t=e.ref;if(t!==null)if(typeof t=="function")try{t(null)}catch(r){Y(e,n,r)}else t.current=null}function ao(e,n,t){try{t()}catch(r){Y(e,n,r)}}var ys=!1;function gp(e,n){if(Ki=dl,e=Ma(),Ao(e)){if("selectionStart"in e)var t={start:e.selectionStart,end:e.selectionEnd};else e:{t=(t=e.ownerDocument)&&t.defaultView||window;var r=t.getSelection&&t.getSelection();if(r&&r.rangeCount!==0){t=r.anchorNode;var l=r.anchorOffset,i=r.focusNode;r=r.focusOffset;try{t.nodeType,i.nodeType}catch{t=null;break e}var o=0,u=-1,s=-1,d=0,v=0,h=e,m=null;n:for(;;){for(var w;h!==t||l!==0&&h.nodeType!==3||(u=o+l),h!==i||r!==0&&h.nodeType!==3||(s=o+r),h.nodeType===3&&(o+=h.nodeValue.length),(w=h.firstChild)!==null;)m=h,h=w;for(;;){if(h===e)break n;if(m===t&&++d===l&&(u=o),m===i&&++v===r&&(s=o),(w=h.nextSibling)!==null)break;h=m,m=h.parentNode}h=w}t=u===-1||s===-1?null:{start:u,end:s}}else t=null}t=t||{start:0,end:0}}else t=null;for(Gi={focusedElem:e,selectionRange:t},dl=!1,E=n;E!==null;)if(n=E,e=n.child,(n.subtreeFlags&1028)!==0&&e!==null)e.return=n,E=e;else for(;E!==null;){n=E;try{var k=n.alternate;if(n.flags&1024)switch(n.tag){case 0:case 11:case 15:break;case 1:if(k!==null){var S=k.memoizedProps,I=k.memoizedState,f=n.stateNode,c=f.getSnapshotBeforeUpdate(n.elementType===n.type?S:$e(n.type,S),I);f.__reactInternalSnapshotBeforeUpdate=c}break;case 3:var p=n.stateNode.containerInfo;p.nodeType===1?p.textContent="":p.nodeType===9&&p.documentElement&&p.removeChild(p.documentElement);break;case 5:case 6:case 4:case 17:break;default:throw Error(y(163))}}catch(g){Y(n,n.return,g)}if(e=n.sibling,e!==null){e.return=n.return,E=e;break}E=n.return}return k=ys,ys=!1,k}function tr(e,n,t){var r=n.updateQueue;if(r=r!==null?r.lastEffect:null,r!==null){var l=r=r.next;do{if((l.tag&e)===e){var i=l.destroy;l.destroy=void 0,i!==void 0&&ao(n,t,i)}l=l.next}while(l!==r)}}function Ul(e,n){if(n=n.updateQueue,n=n!==null?n.lastEffect:null,n!==null){var t=n=n.next;do{if((t.tag&e)===e){var r=t.create;t.destroy=r()}t=t.next}while(t!==n)}}function co(e){var n=e.ref;if(n!==null){var t=e.stateNode;switch(e.tag){case 5:e=t;break;default:e=t}typeof n=="function"?n(e):n.current=e}}function Tc(e){var n=e.alternate;n!==null&&(e.alternate=null,Tc(n)),e.child=null,e.deletions=null,e.sibling=null,e.tag===5&&(n=e.stateNode,n!==null&&(delete n[Ye],delete n[mr],delete n[Zi],delete n[bf],delete n[ep])),e.stateNode=null,e.return=null,e.dependencies=null,e.memoizedProps=null,e.memoizedState=null,e.pendingProps=null,e.stateNode=null,e.updateQueue=null}function Rc(e){return e.tag===5||e.tag===3||e.tag===4}function ws(e){e:for(;;){for(;e.sibling===null;){if(e.return===null||Rc(e.return))return null;e=e.return}for(e.sibling.return=e.return,e=e.sibling;e.tag!==5&&e.tag!==6&&e.tag!==18;){if(e.flags&2||e.child===null||e.tag===4)continue e;e.child.return=e,e=e.child}if(!(e.flags&2))return e.stateNode}}function fo(e,n,t){var r=e.tag;if(r===5||r===6)e=e.stateNode,n?t.nodeType===8?t.parentNode.insertBefore(e,n):t.insertBefore(e,n):(t.nodeType===8?(n=t.parentNode,n.insertBefore(e,t)):(n=t,n.appendChild(e)),t=t._reactRootContainer,t!=null||n.onclick!==null||(n.onclick=hl));else if(r!==4&&(e=e.child,e!==null))for(fo(e,n,t),e=e.sibling;e!==null;)fo(e,n,t),e=e.sibling}function po(e,n,t){var r=e.tag;if(r===5||r===6)e=e.stateNode,n?t.insertBefore(e,n):t.appendChild(e);else if(r!==4&&(e=e.child,e!==null))for(po(e,n,t),e=e.sibling;e!==null;)po(e,n,t),e=e.sibling}var re=null,Ue=!1;function dn(e,n,t){for(t=t.child;t!==null;)zc(e,n,t),t=t.sibling}function zc(e,n,t){if(Xe&&typeof Xe.onCommitFiberUnmount=="function")try{Xe.onCommitFiberUnmount(Ll,t)}catch{}switch(t.tag){case 5:se||ft(t,n);case 6:var r=re,l=Ue;re=null,dn(e,n,t),re=r,Ue=l,re!==null&&(Ue?(e=re,t=t.stateNode,e.nodeType===8?e.parentNode.removeChild(t):e.removeChild(t)):re.removeChild(t.stateNode));break;case 18:re!==null&&(Ue?(e=re,t=t.stateNode,e.nodeType===8?fi(e.parentNode,t):e.nodeType===1&&fi(e,t),cr(e)):fi(re,t.stateNode));break;case 4:r=re,l=Ue,re=t.stateNode.containerInfo,Ue=!0,dn(e,n,t),re=r,Ue=l;break;case 0:case 11:case 14:case 15:if(!se&&(r=t.updateQueue,r!==null&&(r=r.lastEffect,r!==null))){l=r=r.next;do{var i=l,o=i.destroy;i=i.tag,o!==void 0&&(i&2||i&4)&&ao(t,n,o),l=l.next}while(l!==r)}dn(e,n,t);break;case 1:if(!se&&(ft(t,n),r=t.stateNode,typeof r.componentWillUnmount=="function"))try{r.props=t.memoizedProps,r.state=t.memoizedState,r.componentWillUnmount()}catch(u){Y(t,n,u)}dn(e,n,t);break;case 21:dn(e,n,t);break;case 22:t.mode&1?(se=(r=se)||t.memoizedState!==null,dn(e,n,t),se=r):dn(e,n,t);break;default:dn(e,n,t)}}function Ss(e){var n=e.updateQueue;if(n!==null){e.updateQueue=null;var t=e.stateNode;t===null&&(t=e.stateNode=new vp),n.forEach(function(r){var l=Cp.bind(null,e,r);t.has(r)||(t.add(r),r.then(l,l))})}}function Ae(e,n){var t=n.deletions;if(t!==null)for(var r=0;r<t.length;r++){var l=t[r];try{var i=e,o=n,u=o;e:for(;u!==null;){switch(u.tag){case 5:re=u.stateNode,Ue=!1;break e;case 3:re=u.stateNode.containerInfo,Ue=!0;break e;case 4:re=u.stateNode.containerInfo,Ue=!0;break e}u=u.return}if(re===null)throw Error(y(160));zc(i,o,l),re=null,Ue=!1;var s=l.alternate;s!==null&&(s.return=null),l.return=null}catch(d){Y(l,n,d)}}if(n.subtreeFlags&12854)for(n=n.child;n!==null;)Lc(n,e),n=n.sibling}function Lc(e,n){var t=e.alternate,r=e.flags;switch(e.tag){case 0:case 11:case 14:case 15:if(Ae(n,e),Ke(e),r&4){try{tr(3,e,e.return),Ul(3,e)}catch(S){Y(e,e.return,S)}try{tr(5,e,e.return)}catch(S){Y(e,e.return,S)}}break;case 1:Ae(n,e),Ke(e),r&512&&t!==null&&ft(t,t.return);break;case 5:if(Ae(n,e),Ke(e),r&512&&t!==null&&ft(t,t.return),e.flags&32){var l=e.stateNode;try{or(l,"")}catch(S){Y(e,e.return,S)}}if(r&4&&(l=e.stateNode,l!=null)){var i=e.memoizedProps,o=t!==null?t.memoizedProps:i,u=e.type,s=e.updateQueue;if(e.updateQueue=null,s!==null)try{u==="input"&&i.type==="radio"&&i.name!=null&&ea(l,i),Di(u,o);var d=Di(u,i);for(o=0;o<s.length;o+=2){var v=s[o],h=s[o+1];v==="style"?ia(l,h):v==="dangerouslySetInnerHTML"?ra(l,h):v==="children"?or(l,h):No(l,v,h,d)}switch(u){case"input":zi(l,i);break;case"textarea":na(l,i);break;case"select":var m=l._wrapperState.wasMultiple;l._wrapperState.wasMultiple=!!i.multiple;var w=i.value;w!=null?ht(l,!!i.multiple,w,!1):m!==!!i.multiple&&(i.defaultValue!=null?ht(l,!!i.multiple,i.defaultValue,!0):ht(l,!!i.multiple,i.multiple?[]:"",!1))}l[mr]=i}catch(S){Y(e,e.return,S)}}break;case 6:if(Ae(n,e),Ke(e),r&4){if(e.stateNode===null)throw Error(y(162));l=e.stateNode,i=e.memoizedProps;try{l.nodeValue=i}catch(S){Y(e,e.return,S)}}break;case 3:if(Ae(n,e),Ke(e),r&4&&t!==null&&t.memoizedState.isDehydrated)try{cr(n.containerInfo)}catch(S){Y(e,e.return,S)}break;case 4:Ae(n,e),Ke(e);break;case 13:Ae(n,e),Ke(e),l=e.child,l.flags&8192&&(i=l.memoizedState!==null,l.stateNode.isHidden=i,!i||l.alternate!==null&&l.alternate.memoizedState!==null||(lu=X())),r&4&&Ss(e);break;case 22:if(v=t!==null&&t.memoizedState!==null,e.mode&1?(se=(d=se)||v,Ae(n,e),se=d):Ae(n,e),Ke(e),r&8192){if(d=e.memoizedState!==null,(e.stateNode.isHidden=d)&&!v&&e.mode&1)for(E=e,v=e.child;v!==null;){for(h=E=v;E!==null;){switch(m=E,w=m.child,m.tag){case 0:case 11:case 14:case 15:tr(4,m,m.return);break;case 1:ft(m,m.return);var k=m.stateNode;if(typeof k.componentWillUnmount=="function"){r=m,t=m.return;try{n=r,k.props=n.memoizedProps,k.state=n.memoizedState,k.componentWillUnmount()}catch(S){Y(r,t,S)}}break;case 5:ft(m,m.return);break;case 22:if(m.memoizedState!==null){xs(h);continue}}w!==null?(w.return=m,E=w):xs(h)}v=v.sibling}e:for(v=null,h=e;;){if(h.tag===5){if(v===null){v=h;try{l=h.stateNode,d?(i=l.style,typeof i.setProperty=="function"?i.setProperty("display","none","important"):i.display="none"):(u=h.stateNode,s=h.memoizedProps.style,o=s!=null&&s.hasOwnProperty("display")?s.display:null,u.style.display=la("display",o))}catch(S){Y(e,e.return,S)}}}else if(h.tag===6){if(v===null)try{h.stateNode.nodeValue=d?"":h.memoizedProps}catch(S){Y(e,e.return,S)}}else if((h.tag!==22&&h.tag!==23||h.memoizedState===null||h===e)&&h.child!==null){h.child.return=h,h=h.child;continue}if(h===e)break e;for(;h.sibling===null;){if(h.return===null||h.return===e)break e;v===h&&(v=null),h=h.return}v===h&&(v=null),h.sibling.return=h.return,h=h.sibling}}break;case 19:Ae(n,e),Ke(e),r&4&&Ss(e);break;case 21:break;default:Ae(n,e),Ke(e)}}function Ke(e){var n=e.flags;if(n&2){try{e:{for(var t=e.return;t!==null;){if(Rc(t)){var r=t;break e}t=t.return}throw Error(y(160))}switch(r.tag){case 5:var l=r.stateNode;r.flags&32&&(or(l,""),r.flags&=-33);var i=ws(e);po(e,i,l);break;case 3:case 4:var o=r.stateNode.containerInfo,u=ws(e);fo(e,u,o);break;default:throw Error(y(161))}}catch(s){Y(e,e.return,s)}e.flags&=-3}n&4096&&(e.flags&=-4097)}function yp(e,n,t){E=e,Mc(e)}function Mc(e,n,t){for(var r=(e.mode&1)!==0;E!==null;){var l=E,i=l.child;if(l.tag===22&&r){var o=l.memoizedState!==null||Vr;if(!o){var u=l.alternate,s=u!==null&&u.memoizedState!==null||se;u=Vr;var d=se;if(Vr=o,(se=s)&&!d)for(E=l;E!==null;)o=E,s=o.child,o.tag===22&&o.memoizedState!==null?_s(l):s!==null?(s.return=o,E=s):_s(l);for(;i!==null;)E=i,Mc(i),i=i.sibling;E=l,Vr=u,se=d}ks(e)}else l.subtreeFlags&8772&&i!==null?(i.return=l,E=i):ks(e)}}function ks(e){for(;E!==null;){var n=E;if(n.flags&8772){var t=n.alternate;try{if(n.flags&8772)switch(n.tag){case 0:case 11:case 15:se||Ul(5,n);break;case 1:var r=n.stateNode;if(n.flags&4&&!se)if(t===null)r.componentDidMount();else{var l=n.elementType===n.type?t.memoizedProps:$e(n.type,t.memoizedProps);r.componentDidUpdate(l,t.memoizedState,r.__reactInternalSnapshotBeforeUpdate)}var i=n.updateQueue;i!==null&&is(n,i,r);break;case 3:var o=n.updateQueue;if(o!==null){if(t=null,n.child!==null)switch(n.child.tag){case 5:t=n.child.stateNode;break;case 1:t=n.child.stateNode}is(n,o,t)}break;case 5:var u=n.stateNode;if(t===null&&n.flags&4){t=u;var s=n.memoizedProps;switch(n.type){case"button":case"input":case"select":case"textarea":s.autoFocus&&t.focus();break;case"img":s.src&&(t.src=s.src)}}break;case 6:break;case 4:break;case 12:break;case 13:if(n.memoizedState===null){var d=n.alternate;if(d!==null){var v=d.memoizedState;if(v!==null){var h=v.dehydrated;h!==null&&cr(h)}}}break;case 19:case 17:case 21:case 22:case 23:case 25:break;default:throw Error(y(163))}se||n.flags&512&&co(n)}catch(m){Y(n,n.return,m)}}if(n===e){E=null;break}if(t=n.sibling,t!==null){t.return=n.return,E=t;break}E=n.return}}function xs(e){for(;E!==null;){var n=E;if(n===e){E=null;break}var t=n.sibling;if(t!==null){t.return=n.return,E=t;break}E=n.return}}function _s(e){for(;E!==null;){var n=E;try{switch(n.tag){case 0:case 11:case 15:var t=n.return;try{Ul(4,n)}catch(s){Y(n,t,s)}break;case 1:var r=n.stateNode;if(typeof r.componentDidMount=="function"){var l=n.return;try{r.componentDidMount()}catch(s){Y(n,l,s)}}var i=n.return;try{co(n)}catch(s){Y(n,i,s)}break;case 5:var o=n.return;try{co(n)}catch(s){Y(n,o,s)}}}catch(s){Y(n,n.return,s)}if(n===e){E=null;break}var u=n.sibling;if(u!==null){u.return=n.return,E=u;break}E=n.return}}var wp=Math.ceil,Nl=an.ReactCurrentDispatcher,tu=an.ReactCurrentOwner,Me=an.ReactCurrentBatchConfig,O=0,te=null,q=null,le=0,_e=0,pt=Rn(0),ee=0,kr=null,Gn=0,Bl=0,ru=0,rr=null,ve=null,lu=0,Ct=1/0,be=null,Cl=!1,ho=null,_n=null,Hr=!1,gn=null,jl=0,lr=0,mo=null,rl=-1,ll=0;function de(){return O&6?X():rl!==-1?rl:rl=X()}function En(e){return e.mode&1?O&2&&le!==0?le&-le:tp.transition!==null?(ll===0&&(ll=ga()),ll):(e=D,e!==0||(e=window.event,e=e===void 0?16:Ea(e.type)),e):1}function We(e,n,t,r){if(50<lr)throw lr=0,mo=null,Error(y(185));_r(e,t,r),(!(O&2)||e!==te)&&(e===te&&(!(O&2)&&(Bl|=t),ee===4&&mn(e,le)),Se(e,r),t===1&&O===0&&!(n.mode&1)&&(Ct=X()+500,Fl&&zn()))}function Se(e,n){var t=e.callbackNode;nf(e,n);var r=cl(e,e===te?le:0);if(r===0)t!==null&&Lu(t),e.callbackNode=null,e.callbackPriority=0;else if(n=r&-r,e.callbackPriority!==n){if(t!=null&&Lu(t),n===1)e.tag===0?np(Es.bind(null,e)):Wa(Es.bind(null,e)),Jf(function(){!(O&6)&&zn()}),t=null;else{switch(ya(r)){case 1:t=Ro;break;case 4:t=ma;break;case 16:t=al;break;case 536870912:t=va;break;default:t=al}t=Bc(t,Oc.bind(null,e))}e.callbackPriority=n,e.callbackNode=t}}function Oc(e,n){if(rl=-1,ll=0,O&6)throw Error(y(327));var t=e.callbackNode;if(wt()&&e.callbackNode!==t)return null;var r=cl(e,e===te?le:0);if(r===0)return null;if(r&30||r&e.expiredLanes||n)n=Pl(e,r);else{n=r;var l=O;O|=2;var i=Dc();(te!==e||le!==n)&&(be=null,Ct=X()+500,Bn(e,n));do try{xp();break}catch(u){Ic(e,u)}while(!0);Wo(),Nl.current=i,O=l,q!==null?n=0:(te=null,le=0,n=ee)}if(n!==0){if(n===2&&(l=Bi(e),l!==0&&(r=l,n=vo(e,l))),n===1)throw t=kr,Bn(e,0),mn(e,r),Se(e,X()),t;if(n===6)mn(e,r);else{if(l=e.current.alternate,!(r&30)&&!Sp(l)&&(n=Pl(e,r),n===2&&(i=Bi(e),i!==0&&(r=i,n=vo(e,i))),n===1))throw t=kr,Bn(e,0),mn(e,r),Se(e,X()),t;switch(e.finishedWork=l,e.finishedLanes=r,n){case 0:case 1:throw Error(y(345));case 2:Fn(e,ve,be);break;case 3:if(mn(e,r),(r&130023424)===r&&(n=lu+500-X(),10<n)){if(cl(e,0)!==0)break;if(l=e.suspendedLanes,(l&r)!==r){de(),e.pingedLanes|=e.suspendedLanes&l;break}e.timeoutHandle=Xi(Fn.bind(null,e,ve,be),n);break}Fn(e,ve,be);break;case 4:if(mn(e,r),(r&4194240)===r)break;for(n=e.eventTimes,l=-1;0<r;){var o=31-Qe(r);i=1<<o,o=n[o],o>l&&(l=o),r&=~i}if(r=l,r=X()-r,r=(120>r?120:480>r?480:1080>r?1080:1920>r?1920:3e3>r?3e3:4320>r?4320:1960*wp(r/1960))-r,10<r){e.timeoutHandle=Xi(Fn.bind(null,e,ve,be),r);break}Fn(e,ve,be);break;case 5:Fn(e,ve,be);break;default:throw Error(y(329))}}}return Se(e,X()),e.callbackNode===t?Oc.bind(null,e):null}function vo(e,n){var t=rr;return e.current.memoizedState.isDehydrated&&(Bn(e,n).flags|=256),e=Pl(e,n),e!==2&&(n=ve,ve=t,n!==null&&go(n)),e}function go(e){ve===null?ve=e:ve.push.apply(ve,e)}function Sp(e){for(var n=e;;){if(n.flags&16384){var t=n.updateQueue;if(t!==null&&(t=t.stores,t!==null))for(var r=0;r<t.length;r++){var l=t[r],i=l.getSnapshot;l=l.value;try{if(!Ve(i(),l))return!1}catch{return!1}}}if(t=n.child,n.subtreeFlags&16384&&t!==null)t.return=n,n=t;else{if(n===e)break;for(;n.sibling===null;){if(n.return===null||n.return===e)return!0;n=n.return}n.sibling.return=n.return,n=n.sibling}}return!0}function mn(e,n){for(n&=~ru,n&=~Bl,e.suspendedLanes|=n,e.pingedLanes&=~n,e=e.expirationTimes;0<n;){var t=31-Qe(n),r=1<<t;e[t]=-1,n&=~r}}function Es(e){if(O&6)throw Error(y(327));wt();var n=cl(e,0);if(!(n&1))return Se(e,X()),null;var t=Pl(e,n);if(e.tag!==0&&t===2){var r=Bi(e);r!==0&&(n=r,t=vo(e,r))}if(t===1)throw t=kr,Bn(e,0),mn(e,n),Se(e,X()),t;if(t===6)throw Error(y(345));return e.finishedWork=e.current.alternate,e.finishedLanes=n,Fn(e,ve,be),Se(e,X()),null}function iu(e,n){var t=O;O|=1;try{return e(n)}finally{O=t,O===0&&(Ct=X()+500,Fl&&zn())}}function Yn(e){gn!==null&&gn.tag===0&&!(O&6)&&wt();var n=O;O|=1;var t=Me.transition,r=D;try{if(Me.transition=null,D=1,e)return e()}finally{D=r,Me.transition=t,O=n,!(O&6)&&zn()}}function ou(){_e=pt.current,U(pt)}function Bn(e,n){e.finishedWork=null,e.finishedLanes=0;var t=e.timeoutHandle;if(t!==-1&&(e.timeoutHandle=-1,Zf(t)),q!==null)for(t=q.return;t!==null;){var r=t;switch(Uo(r),r.tag){case 1:r=r.type.childContextTypes,r!=null&&ml();break;case 3:Et(),U(ye),U(ae),Xo();break;case 5:Yo(r);break;case 4:Et();break;case 13:U(H);break;case 19:U(H);break;case 10:Vo(r.type._context);break;case 22:case 23:ou()}t=t.return}if(te=e,q=e=Nn(e.current,null),le=_e=n,ee=0,kr=null,ru=Bl=Gn=0,ve=rr=null,$n!==null){for(n=0;n<$n.length;n++)if(t=$n[n],r=t.interleaved,r!==null){t.interleaved=null;var l=r.next,i=t.pending;if(i!==null){var o=i.next;i.next=l,r.next=o}t.pending=r}$n=null}return e}function Ic(e,n){do{var t=q;try{if(Wo(),el.current=El,_l){for(var r=K.memoizedState;r!==null;){var l=r.queue;l!==null&&(l.pending=null),r=r.next}_l=!1}if(Kn=0,ne=b=K=null,nr=!1,yr=0,tu.current=null,t===null||t.return===null){ee=1,kr=n,q=null;break}e:{var i=e,o=t.return,u=t,s=n;if(n=le,u.flags|=32768,s!==null&&typeof s=="object"&&typeof s.then=="function"){var d=s,v=u,h=v.tag;if(!(v.mode&1)&&(h===0||h===11||h===15)){var m=v.alternate;m?(v.updateQueue=m.updateQueue,v.memoizedState=m.memoizedState,v.lanes=m.lanes):(v.updateQueue=null,v.memoizedState=null)}var w=ds(o);if(w!==null){w.flags&=-257,fs(w,o,u,i,n),w.mode&1&&cs(i,d,n),n=w,s=d;var k=n.updateQueue;if(k===null){var S=new Set;S.add(s),n.updateQueue=S}else k.add(s);break e}else{if(!(n&1)){cs(i,d,n),uu();break e}s=Error(y(426))}}else if(B&&u.mode&1){var I=ds(o);if(I!==null){!(I.flags&65536)&&(I.flags|=256),fs(I,o,u,i,n),Bo(Nt(s,u));break e}}i=s=Nt(s,u),ee!==4&&(ee=2),rr===null?rr=[i]:rr.push(i),i=o;do{switch(i.tag){case 3:i.flags|=65536,n&=-n,i.lanes|=n;var f=yc(i,s,n);ls(i,f);break e;case 1:u=s;var c=i.type,p=i.stateNode;if(!(i.flags&128)&&(typeof c.getDerivedStateFromError=="function"||p!==null&&typeof p.componentDidCatch=="function"&&(_n===null||!_n.has(p)))){i.flags|=65536,n&=-n,i.lanes|=n;var g=wc(i,u,n);ls(i,g);break e}}i=i.return}while(i!==null)}Ac(t)}catch(x){n=x,q===t&&t!==null&&(q=t=t.return);continue}break}while(!0)}function Dc(){var e=Nl.current;return Nl.current=El,e===null?El:e}function uu(){(ee===0||ee===3||ee===2)&&(ee=4),te===null||!(Gn&268435455)&&!(Bl&268435455)||mn(te,le)}function Pl(e,n){var t=O;O|=2;var r=Dc();(te!==e||le!==n)&&(be=null,Bn(e,n));do try{kp();break}catch(l){Ic(e,l)}while(!0);if(Wo(),O=t,Nl.current=r,q!==null)throw Error(y(261));return te=null,le=0,ee}function kp(){for(;q!==null;)Fc(q)}function xp(){for(;q!==null&&!Kd();)Fc(q)}function Fc(e){var n=Uc(e.alternate,e,_e);e.memoizedProps=e.pendingProps,n===null?Ac(e):q=n,tu.current=null}function Ac(e){var n=e;do{var t=n.alternate;if(e=n.return,n.flags&32768){if(t=mp(t,n),t!==null){t.flags&=32767,q=t;return}if(e!==null)e.flags|=32768,e.subtreeFlags=0,e.deletions=null;else{ee=6,q=null;return}}else if(t=hp(t,n,_e),t!==null){q=t;return}if(n=n.sibling,n!==null){q=n;return}q=n=e}while(n!==null);ee===0&&(ee=5)}function Fn(e,n,t){var r=D,l=Me.transition;try{Me.transition=null,D=1,_p(e,n,t,r)}finally{Me.transition=l,D=r}return null}function _p(e,n,t,r){do wt();while(gn!==null);if(O&6)throw Error(y(327));t=e.finishedWork;var l=e.finishedLanes;if(t===null)return null;if(e.finishedWork=null,e.finishedLanes=0,t===e.current)throw Error(y(177));e.callbackNode=null,e.callbackPriority=0;var i=t.lanes|t.childLanes;if(tf(e,i),e===te&&(q=te=null,le=0),!(t.subtreeFlags&2064)&&!(t.flags&2064)||Hr||(Hr=!0,Bc(al,function(){return wt(),null})),i=(t.flags&15990)!==0,t.subtreeFlags&15990||i){i=Me.transition,Me.transition=null;var o=D;D=1;var u=O;O|=4,tu.current=null,gp(e,t),Lc(t,e),Wf(Gi),dl=!!Ki,Gi=Ki=null,e.current=t,yp(t),Gd(),O=u,D=o,Me.transition=i}else e.current=t;if(Hr&&(Hr=!1,gn=e,jl=l),i=e.pendingLanes,i===0&&(_n=null),Zd(t.stateNode),Se(e,X()),n!==null)for(r=e.onRecoverableError,t=0;t<n.length;t++)l=n[t],r(l.value,{componentStack:l.stack,digest:l.digest});if(Cl)throw Cl=!1,e=ho,ho=null,e;return jl&1&&e.tag!==0&&wt(),i=e.pendingLanes,i&1?e===mo?lr++:(lr=0,mo=e):lr=0,zn(),null}function wt(){if(gn!==null){var e=ya(jl),n=Me.transition,t=D;try{if(Me.transition=null,D=16>e?16:e,gn===null)var r=!1;else{if(e=gn,gn=null,jl=0,O&6)throw Error(y(331));var l=O;for(O|=4,E=e.current;E!==null;){var i=E,o=i.child;if(E.flags&16){var u=i.deletions;if(u!==null){for(var s=0;s<u.length;s++){var d=u[s];for(E=d;E!==null;){var v=E;switch(v.tag){case 0:case 11:case 15:tr(8,v,i)}var h=v.child;if(h!==null)h.return=v,E=h;else for(;E!==null;){v=E;var m=v.sibling,w=v.return;if(Tc(v),v===d){E=null;break}if(m!==null){m.return=w,E=m;break}E=w}}}var k=i.alternate;if(k!==null){var S=k.child;if(S!==null){k.child=null;do{var I=S.sibling;S.sibling=null,S=I}while(S!==null)}}E=i}}if(i.subtreeFlags&2064&&o!==null)o.return=i,E=o;else e:for(;E!==null;){if(i=E,i.flags&2048)switch(i.tag){case 0:case 11:case 15:tr(9,i,i.return)}var f=i.sibling;if(f!==null){f.return=i.return,E=f;break e}E=i.return}}var c=e.current;for(E=c;E!==null;){o=E;var p=o.child;if(o.subtreeFlags&2064&&p!==null)p.return=o,E=p;else e:for(o=c;E!==null;){if(u=E,u.flags&2048)try{switch(u.tag){case 0:case 11:case 15:Ul(9,u)}}catch(x){Y(u,u.return,x)}if(u===o){E=null;break e}var g=u.sibling;if(g!==null){g.return=u.return,E=g;break e}E=u.return}}if(O=l,zn(),Xe&&typeof Xe.onPostCommitFiberRoot=="function")try{Xe.onPostCommitFiberRoot(Ll,e)}catch{}r=!0}return r}finally{D=t,Me.transition=n}}return!1}function Ns(e,n,t){n=Nt(t,n),n=yc(e,n,1),e=xn(e,n,1),n=de(),e!==null&&(_r(e,1,n),Se(e,n))}function Y(e,n,t){if(e.tag===3)Ns(e,e,t);else for(;n!==null;){if(n.tag===3){Ns(n,e,t);break}else if(n.tag===1){var r=n.stateNode;if(typeof n.type.getDerivedStateFromError=="function"||typeof r.componentDidCatch=="function"&&(_n===null||!_n.has(r))){e=Nt(t,e),e=wc(n,e,1),n=xn(n,e,1),e=de(),n!==null&&(_r(n,1,e),Se(n,e));break}}n=n.return}}function Ep(e,n,t){var r=e.pingCache;r!==null&&r.delete(n),n=de(),e.pingedLanes|=e.suspendedLanes&t,te===e&&(le&t)===t&&(ee===4||ee===3&&(le&130023424)===le&&500>X()-lu?Bn(e,0):ru|=t),Se(e,n)}function $c(e,n){n===0&&(e.mode&1?(n=Ir,Ir<<=1,!(Ir&130023424)&&(Ir=4194304)):n=1);var t=de();e=un(e,n),e!==null&&(_r(e,n,t),Se(e,t))}function Np(e){var n=e.memoizedState,t=0;n!==null&&(t=n.retryLane),$c(e,t)}function Cp(e,n){var t=0;switch(e.tag){case 13:var r=e.stateNode,l=e.memoizedState;l!==null&&(t=l.retryLane);break;case 19:r=e.stateNode;break;default:throw Error(y(314))}r!==null&&r.delete(n),$c(e,t)}var Uc;Uc=function(e,n,t){if(e!==null)if(e.memoizedProps!==n.pendingProps||ye.current)ge=!0;else{if(!(e.lanes&t)&&!(n.flags&128))return ge=!1,pp(e,n,t);ge=!!(e.flags&131072)}else ge=!1,B&&n.flags&1048576&&Va(n,yl,n.index);switch(n.lanes=0,n.tag){case 2:var r=n.type;tl(e,n),e=n.pendingProps;var l=kt(n,ae.current);yt(n,t),l=Jo(null,n,r,e,l,t);var i=qo();return n.flags|=1,typeof l=="object"&&l!==null&&typeof l.render=="function"&&l.$$typeof===void 0?(n.tag=1,n.memoizedState=null,n.updateQueue=null,we(r)?(i=!0,vl(n)):i=!1,n.memoizedState=l.state!==null&&l.state!==void 0?l.state:null,Ko(n),l.updater=$l,n.stateNode=l,l._reactInternals=n,to(n,r,e,t),n=io(null,n,r,!0,i,t)):(n.tag=0,B&&i&&$o(n),ce(null,n,l,t),n=n.child),n;case 16:r=n.elementType;e:{switch(tl(e,n),e=n.pendingProps,l=r._init,r=l(r._payload),n.type=r,l=n.tag=Pp(r),e=$e(r,e),l){case 0:n=lo(null,n,r,e,t);break e;case 1:n=ms(null,n,r,e,t);break e;case 11:n=ps(null,n,r,e,t);break e;case 14:n=hs(null,n,r,$e(r.type,e),t);break e}throw Error(y(306,r,""))}return n;case 0:return r=n.type,l=n.pendingProps,l=n.elementType===r?l:$e(r,l),lo(e,n,r,l,t);case 1:return r=n.type,l=n.pendingProps,l=n.elementType===r?l:$e(r,l),ms(e,n,r,l,t);case 3:e:{if(_c(n),e===null)throw Error(y(387));r=n.pendingProps,i=n.memoizedState,l=i.element,Za(e,n),kl(n,r,null,t);var o=n.memoizedState;if(r=o.element,i.isDehydrated)if(i={element:r,isDehydrated:!1,cache:o.cache,pendingSuspenseBoundaries:o.pendingSuspenseBoundaries,transitions:o.transitions},n.updateQueue.baseState=i,n.memoizedState=i,n.flags&256){l=Nt(Error(y(423)),n),n=vs(e,n,r,t,l);break e}else if(r!==l){l=Nt(Error(y(424)),n),n=vs(e,n,r,t,l);break e}else for(Ee=kn(n.stateNode.containerInfo.firstChild),Ne=n,B=!0,Be=null,t=Ya(n,null,r,t),n.child=t;t;)t.flags=t.flags&-3|4096,t=t.sibling;else{if(xt(),r===l){n=sn(e,n,t);break e}ce(e,n,r,t)}n=n.child}return n;case 5:return Ja(n),e===null&&bi(n),r=n.type,l=n.pendingProps,i=e!==null?e.memoizedProps:null,o=l.children,Yi(r,l)?o=null:i!==null&&Yi(r,i)&&(n.flags|=32),xc(e,n),ce(e,n,o,t),n.child;case 6:return e===null&&bi(n),null;case 13:return Ec(e,n,t);case 4:return Go(n,n.stateNode.containerInfo),r=n.pendingProps,e===null?n.child=_t(n,null,r,t):ce(e,n,r,t),n.child;case 11:return r=n.type,l=n.pendingProps,l=n.elementType===r?l:$e(r,l),ps(e,n,r,l,t);case 7:return ce(e,n,n.pendingProps,t),n.child;case 8:return ce(e,n,n.pendingProps.children,t),n.child;case 12:return ce(e,n,n.pendingProps.children,t),n.child;case 10:e:{if(r=n.type._context,l=n.pendingProps,i=n.memoizedProps,o=l.value,F(wl,r._currentValue),r._currentValue=o,i!==null)if(Ve(i.value,o)){if(i.children===l.children&&!ye.current){n=sn(e,n,t);break e}}else for(i=n.child,i!==null&&(i.return=n);i!==null;){var u=i.dependencies;if(u!==null){o=i.child;for(var s=u.firstContext;s!==null;){if(s.context===r){if(i.tag===1){s=rn(-1,t&-t),s.tag=2;var d=i.updateQueue;if(d!==null){d=d.shared;var v=d.pending;v===null?s.next=s:(s.next=v.next,v.next=s),d.pending=s}}i.lanes|=t,s=i.alternate,s!==null&&(s.lanes|=t),eo(i.return,t,n),u.lanes|=t;break}s=s.next}}else if(i.tag===10)o=i.type===n.type?null:i.child;else if(i.tag===18){if(o=i.return,o===null)throw Error(y(341));o.lanes|=t,u=o.alternate,u!==null&&(u.lanes|=t),eo(o,t,n),o=i.sibling}else o=i.child;if(o!==null)o.return=i;else for(o=i;o!==null;){if(o===n){o=null;break}if(i=o.sibling,i!==null){i.return=o.return,o=i;break}o=o.return}i=o}ce(e,n,l.children,t),n=n.child}return n;case 9:return l=n.type,r=n.pendingProps.children,yt(n,t),l=Oe(l),r=r(l),n.flags|=1,ce(e,n,r,t),n.child;case 14:return r=n.type,l=$e(r,n.pendingProps),l=$e(r.type,l),hs(e,n,r,l,t);case 15:return Sc(e,n,n.type,n.pendingProps,t);case 17:return r=n.type,l=n.pendingProps,l=n.elementType===r?l:$e(r,l),tl(e,n),n.tag=1,we(r)?(e=!0,vl(n)):e=!1,yt(n,t),gc(n,r,l),to(n,r,l,t),io(null,n,r,!0,e,t);case 19:return Nc(e,n,t);case 22:return kc(e,n,t)}throw Error(y(156,n.tag))};function Bc(e,n){return ha(e,n)}function jp(e,n,t,r){this.tag=e,this.key=t,this.sibling=this.child=this.return=this.stateNode=this.type=this.elementType=null,this.index=0,this.ref=null,this.pendingProps=n,this.dependencies=this.memoizedState=this.updateQueue=this.memoizedProps=null,this.mode=r,this.subtreeFlags=this.flags=0,this.deletions=null,this.childLanes=this.lanes=0,this.alternate=null}function Le(e,n,t,r){return new jp(e,n,t,r)}function su(e){return e=e.prototype,!(!e||!e.isReactComponent)}function Pp(e){if(typeof e=="function")return su(e)?1:0;if(e!=null){if(e=e.$$typeof,e===jo)return 11;if(e===Po)return 14}return 2}function Nn(e,n){var t=e.alternate;return t===null?(t=Le(e.tag,n,e.key,e.mode),t.elementType=e.elementType,t.type=e.type,t.stateNode=e.stateNode,t.alternate=e,e.alternate=t):(t.pendingProps=n,t.type=e.type,t.flags=0,t.subtreeFlags=0,t.deletions=null),t.flags=e.flags&14680064,t.childLanes=e.childLanes,t.lanes=e.lanes,t.child=e.child,t.memoizedProps=e.memoizedProps,t.memoizedState=e.memoizedState,t.updateQueue=e.updateQueue,n=e.dependencies,t.dependencies=n===null?null:{lanes:n.lanes,firstContext:n.firstContext},t.sibling=e.sibling,t.index=e.index,t.ref=e.ref,t}function il(e,n,t,r,l,i){var o=2;if(r=e,typeof e=="function")su(e)&&(o=1);else if(typeof e=="string")o=5;else e:switch(e){case rt:return Qn(t.children,l,i,n);case Co:o=8,l|=8;break;case Ci:return e=Le(12,t,n,l|2),e.elementType=Ci,e.lanes=i,e;case ji:return e=Le(13,t,n,l),e.elementType=ji,e.lanes=i,e;case Pi:return e=Le(19,t,n,l),e.elementType=Pi,e.lanes=i,e;case Js:return Ql(t,l,i,n);default:if(typeof e=="object"&&e!==null)switch(e.$$typeof){case Xs:o=10;break e;case Zs:o=9;break e;case jo:o=11;break e;case Po:o=14;break e;case fn:o=16,r=null;break e}throw Error(y(130,e==null?e:typeof e,""))}return n=Le(o,t,n,l),n.elementType=e,n.type=r,n.lanes=i,n}function Qn(e,n,t,r){return e=Le(7,e,r,n),e.lanes=t,e}function Ql(e,n,t,r){return e=Le(22,e,r,n),e.elementType=Js,e.lanes=t,e.stateNode={isHidden:!1},e}function Si(e,n,t){return e=Le(6,e,null,n),e.lanes=t,e}function ki(e,n,t){return n=Le(4,e.children!==null?e.children:[],e.key,n),n.lanes=t,n.stateNode={containerInfo:e.containerInfo,pendingChildren:null,implementation:e.implementation},n}function Tp(e,n,t,r,l){this.tag=n,this.containerInfo=e,this.finishedWork=this.pingCache=this.current=this.pendingChildren=null,this.timeoutHandle=-1,this.callbackNode=this.pendingContext=this.context=null,this.callbackPriority=0,this.eventTimes=ni(0),this.expirationTimes=ni(-1),this.entangledLanes=this.finishedLanes=this.mutableReadLanes=this.expiredLanes=this.pingedLanes=this.suspendedLanes=this.pendingLanes=0,this.entanglements=ni(0),this.identifierPrefix=r,this.onRecoverableError=l,this.mutableSourceEagerHydrationData=null}function au(e,n,t,r,l,i,o,u,s){return e=new Tp(e,n,t,u,s),n===1?(n=1,i===!0&&(n|=8)):n=0,i=Le(3,null,null,n),e.current=i,i.stateNode=e,i.memoizedState={element:r,isDehydrated:t,cache:null,transitions:null,pendingSuspenseBoundaries:null},Ko(i),e}function Rp(e,n,t){var r=3<arguments.length&&arguments[3]!==void 0?arguments[3]:null;return{$$typeof:tt,key:r==null?null:""+r,children:e,containerInfo:n,implementation:t}}function Qc(e){if(!e)return Pn;e=e._reactInternals;e:{if(Zn(e)!==e||e.tag!==1)throw Error(y(170));var n=e;do{switch(n.tag){case 3:n=n.stateNode.context;break e;case 1:if(we(n.type)){n=n.stateNode.__reactInternalMemoizedMergedChildContext;break e}}n=n.return}while(n!==null);throw Error(y(171))}if(e.tag===1){var t=e.type;if(we(t))return Qa(e,t,n)}return n}function Wc(e,n,t,r,l,i,o,u,s){return e=au(t,r,!0,e,l,i,o,u,s),e.context=Qc(null),t=e.current,r=de(),l=En(t),i=rn(r,l),i.callback=n??null,xn(t,i,l),e.current.lanes=l,_r(e,l,r),Se(e,r),e}function Wl(e,n,t,r){var l=n.current,i=de(),o=En(l);return t=Qc(t),n.context===null?n.context=t:n.pendingContext=t,n=rn(i,o),n.payload={element:e},r=r===void 0?null:r,r!==null&&(n.callback=r),e=xn(l,n,o),e!==null&&(We(e,l,o,i),br(e,l,o)),o}function Tl(e){if(e=e.current,!e.child)return null;switch(e.child.tag){case 5:return e.child.stateNode;default:return e.child.stateNode}}function Cs(e,n){if(e=e.memoizedState,e!==null&&e.dehydrated!==null){var t=e.retryLane;e.retryLane=t!==0&&t<n?t:n}}function cu(e,n){Cs(e,n),(e=e.alternate)&&Cs(e,n)}function zp(){return null}var Vc=typeof reportError=="function"?reportError:function(e){console.error(e)};function du(e){this._internalRoot=e}Vl.prototype.render=du.prototype.render=function(e){var n=this._internalRoot;if(n===null)throw Error(y(409));Wl(e,n,null,null)};Vl.prototype.unmount=du.prototype.unmount=function(){var e=this._internalRoot;if(e!==null){this._internalRoot=null;var n=e.containerInfo;Yn(function(){Wl(null,e,null,null)}),n[on]=null}};function Vl(e){this._internalRoot=e}Vl.prototype.unstable_scheduleHydration=function(e){if(e){var n=ka();e={blockedOn:null,target:e,priority:n};for(var t=0;t<hn.length&&n!==0&&n<hn[t].priority;t++);hn.splice(t,0,e),t===0&&_a(e)}};function fu(e){return!(!e||e.nodeType!==1&&e.nodeType!==9&&e.nodeType!==11)}function Hl(e){return!(!e||e.nodeType!==1&&e.nodeType!==9&&e.nodeType!==11&&(e.nodeType!==8||e.nodeValue!==" react-mount-point-unstable "))}function js(){}function Lp(e,n,t,r,l){if(l){if(typeof r=="function"){var i=r;r=function(){var d=Tl(o);i.call(d)}}var o=Wc(n,r,e,0,null,!1,!1,"",js);return e._reactRootContainer=o,e[on]=o.current,pr(e.nodeType===8?e.parentNode:e),Yn(),o}for(;l=e.lastChild;)e.removeChild(l);if(typeof r=="function"){var u=r;r=function(){var d=Tl(s);u.call(d)}}var s=au(e,0,!1,null,null,!1,!1,"",js);return e._reactRootContainer=s,e[on]=s.current,pr(e.nodeType===8?e.parentNode:e),Yn(function(){Wl(n,s,t,r)}),s}function Kl(e,n,t,r,l){var i=t._reactRootContainer;if(i){var o=i;if(typeof l=="function"){var u=l;l=function(){var s=Tl(o);u.call(s)}}Wl(n,o,e,l)}else o=Lp(t,n,e,l,r);return Tl(o)}wa=function(e){switch(e.tag){case 3:var n=e.stateNode;if(n.current.memoizedState.isDehydrated){var t=Yt(n.pendingLanes);t!==0&&(zo(n,t|1),Se(n,X()),!(O&6)&&(Ct=X()+500,zn()))}break;case 13:Yn(function(){var r=un(e,1);if(r!==null){var l=de();We(r,e,1,l)}}),cu(e,1)}};Lo=function(e){if(e.tag===13){var n=un(e,134217728);if(n!==null){var t=de();We(n,e,134217728,t)}cu(e,134217728)}};Sa=function(e){if(e.tag===13){var n=En(e),t=un(e,n);if(t!==null){var r=de();We(t,e,n,r)}cu(e,n)}};ka=function(){return D};xa=function(e,n){var t=D;try{return D=e,n()}finally{D=t}};Ai=function(e,n,t){switch(n){case"input":if(zi(e,t),n=t.name,t.type==="radio"&&n!=null){for(t=e;t.parentNode;)t=t.parentNode;for(t=t.querySelectorAll("input[name="+JSON.stringify(""+n)+'][type="radio"]'),n=0;n<t.length;n++){var r=t[n];if(r!==e&&r.form===e.form){var l=Dl(r);if(!l)throw Error(y(90));bs(r),zi(r,l)}}}break;case"textarea":na(e,t);break;case"select":n=t.value,n!=null&&ht(e,!!t.multiple,n,!1)}};sa=iu;aa=Yn;var Mp={usingClientEntryPoint:!1,Events:[Nr,ut,Dl,oa,ua,iu]},Ht={findFiberByHostInstance:An,bundleType:0,version:"18.3.1",rendererPackageName:"react-dom"},Op={bundleType:Ht.bundleType,version:Ht.version,rendererPackageName:Ht.rendererPackageName,rendererConfig:Ht.rendererConfig,overrideHookState:null,overrideHookStateDeletePath:null,overrideHookStateRenamePath:null,overrideProps:null,overridePropsDeletePath:null,overridePropsRenamePath:null,setErrorHandler:null,setSuspenseHandler:null,scheduleUpdate:null,currentDispatcherRef:an.ReactCurrentDispatcher,findHostInstanceByFiber:function(e){return e=fa(e),e===null?null:e.stateNode},findFiberByHostInstance:Ht.findFiberByHostInstance||zp,findHostInstancesForRefresh:null,scheduleRefresh:null,scheduleRoot:null,setRefreshHandler:null,getCurrentFiber:null,reconcilerVersion:"18.3.1-next-f1338f8080-20240426"};if(typeof __REACT_DEVTOOLS_GLOBAL_HOOK__<"u"){var Kr=__REACT_DEVTOOLS_GLOBAL_HOOK__;if(!Kr.isDisabled&&Kr.supportsFiber)try{Ll=Kr.inject(Op),Xe=Kr}catch{}}je.__SECRET_INTERNALS_DO_NOT_USE_OR_YOU_WILL_BE_FIRED=Mp;je.createPortal=function(e,n){var t=2<arguments.length&&arguments[2]!==void 0?arguments[2]:null;if(!fu(n))throw Error(y(200));return Rp(e,n,null,t)};je.createRoot=function(e,n){if(!fu(e))throw Error(y(299));var t=!1,r="",l=Vc;return n!=null&&(n.unstable_strictMode===!0&&(t=!0),n.identifierPrefix!==void 0&&(r=n.identifierPrefix),n.onRecoverableError!==void 0&&(l=n.onRecoverableError)),n=au(e,1,!1,null,null,t,!1,r,l),e[on]=n.current,pr(e.nodeType===8?e.parentNode:e),new du(n)};je.findDOMNode=function(e){if(e==null)return null;if(e.nodeType===1)return e;var n=e._reactInternals;if(n===void 0)throw typeof e.render=="function"?Error(y(188)):(e=Object.keys(e).join(","),Error(y(268,e)));return e=fa(n),e=e===null?null:e.stateNode,e};je.flushSync=function(e){return Yn(e)};je.hydrate=function(e,n,t){if(!Hl(n))throw Error(y(200));return Kl(null,e,n,!0,t)};je.hydrateRoot=function(e,n,t){if(!fu(e))throw Error(y(405));var r=t!=null&&t.hydratedSources||null,l=!1,i="",o=Vc;if(t!=null&&(t.unstable_strictMode===!0&&(l=!0),t.identifierPrefix!==void 0&&(i=t.identifierPrefix),t.onRecoverableError!==void 0&&(o=t.onRecoverableError)),n=Wc(n,null,e,1,t??null,l,!1,i,o),e[on]=n.current,pr(e),r)for(e=0;e<r.length;e++)t=r[e],l=t._getVersion,l=l(t._source),n.mutableSourceEagerHydrationData==null?n.mutableSourceEagerHydrationData=[t,l]:n.mutableSourceEagerHydrationData.push(t,l);return new Vl(n)};je.render=function(e,n,t){if(!Hl(n))throw Error(y(200));return Kl(null,e,n,!1,t)};je.unmountComponentAtNode=function(e){if(!Hl(e))throw Error(y(40));return e._reactRootContainer?(Yn(function(){Kl(null,null,e,!1,function(){e._reactRootContainer=null,e[on]=null})}),!0):!1};je.unstable_batchedUpdates=iu;je.unstable_renderSubtreeIntoContainer=function(e,n,t,r){if(!Hl(t))throw Error(y(200));if(e==null||e._reactInternals===void 0)throw Error(y(38));return Kl(e,n,t,!1,r)};je.version="18.3.1-next-f1338f8080-20240426";function Hc(){if(!(typeof __REACT_DEVTOOLS_GLOBAL_HOOK__>"u"||typeof __REACT_DEVTOOLS_GLOBAL_HOOK__.checkDCE!="function"))try{__REACT_DEVTOOLS_GLOBAL_HOOK__.checkDCE(Hc)}catch(e){console.error(e)}}Hc(),Hs.exports=je;var Ip=Hs.exports,Ps=Ip;Ei.createRoot=Ps.createRoot,Ei.hydrateRoot=Ps.hydrateRoot;function Kc(e){return e.replace(/\/$/,"")}function Dp(){if(typeof window>"u")return"http://127.0.0.1:8100";const e=window.location.hostname;return new Set(["localhost","127.0.0.1","0.0.0.0"]).has(e)?"http://127.0.0.1:8100":window.location.origin}const Fp=Kc("/api"),Ap=Kc(Dp());async function Rt(e,n){const t=await fetch(`${Fp}${e}`,n);if(!t.ok){const r=await t.text();throw new Error(`API ${e} failed (${t.status}): ${r.slice(0,240)}`)}return await t.json()}let xe=null;const Rl=[];function xi(){return`${Ap.replace(/\/$/,"").replace(/^http/,"ws")}/ws`}async function Gc(){if((xe==null?void 0:xe.readyState)===WebSocket.OPEN)return xe;if((xe==null?void 0:xe.readyState)===WebSocket.CONNECTING)return await new Promise(n=>setTimeout(n,80)),Gc();const e=new WebSocket(xi());return xe=e,e.onmessage=n=>{const t=Rl.shift();if(t)try{const r=JSON.parse(n.data);if(r.type==="error"){const l=r.data,i=l&&typeof l=="object"&&"message"in l?String(l.message):"Env service returned an error";t.reject(new Error(i));return}t.resolve(r.data)}catch(r){t.reject(r)}},e.onerror=()=>{const n=Rl.shift();n&&n.reject(new Error(`Unable to connect to env service at ${xi()}`))},e.onclose=()=>{xe=null},await new Promise((n,t)=>{const r=window.setTimeout(()=>t(new Error(`Env service timeout at ${xi()}`)),2500);e.onopen=()=>{window.clearTimeout(r),n()}}),e}async function Ts(e,n){const t=await Gc();return new Promise((r,l)=>{Rl.push({resolve:i=>r(i),reject:l}),t.send(JSON.stringify({type:e,data:n}))})}function $p(){try{xe==null||xe.close()}catch{}finally{xe=null,Rl.splice(0)}}async function Up(){return Rt("/env/catalog")}async function Bp(e={}){return Rt("/env/reset",{method:"POST",headers:{"Content-Type":"application/json"},body:JSON.stringify(e)})}async function Qp(){return Rt("/agents/orchestrate",{method:"POST",headers:{"Content-Type":"application/json"},body:JSON.stringify({})})}async function Wp(e){return Rt("/env/step_candidate",{method:"POST",headers:{"Content-Type":"application/json"},body:JSON.stringify(e)})}async function Vp(){return Rt("/env/reward_breakdown")}async function Hp(){return Rt("/policy/model_status")}function Kp(e){return Array.from({length:e},()=>({x:Math.random()*2-1,y:Math.random()*2-1,z:Math.random(),size:Math.random()*1.4+.25,speed:Math.random()*55e-5+18e-5}))}function Gp(){const e=L.useRef(null);return L.useEffect(()=>{const n=e.current,t=n==null?void 0:n.getContext("2d");if(!n||!t)return;let r=0,l=0,i=0,o=0,u=0;const s=Kp(680),d=()=>{const h=Math.min(window.devicePixelRatio||1,2);l=window.innerWidth,i=window.innerHeight,o=l/2,u=i/2,n.width=Math.floor(l*h),n.height=Math.floor(i*h),n.style.width=`${l}px`,n.style.height=`${i}px`,t.setTransform(h,0,0,h,0,0)},v=()=>{t.clearRect(0,0,l,i),t.globalCompositeOperation="lighter",s.forEach(h=>{h.z-=h.speed,h.z<=.02&&(h.x=Math.random()*2-1,h.y=Math.random()*2-1,h.z=1);const m=1/h.z,w=o+h.x*m*o,k=u+h.y*m*u,S=Math.max(0,Math.min(1,1.15-h.z)),I=h.size*m*.85;t.beginPath(),t.fillStyle=`rgba(210, 246, 255, ${S})`,t.arc(w,k,I,0,Math.PI*2),t.fill()}),r=window.requestAnimationFrame(v)};return d(),v(),window.addEventListener("resize",d),()=>{window.removeEventListener("resize",d),window.cancelAnimationFrame(r)}},[]),a.jsx("canvas",{ref:e})}function Yp(){return a.jsxs("div",{className:"metaverse-backdrop","aria-hidden":"true",children:[a.jsx("video",{className:"blackhole-video",autoPlay:!0,muted:!0,loop:!0,playsInline:!0,preload:"auto",children:a.jsx("source",{src:"/blackhole.webm",type:"video/webm"})}),a.jsx("div",{className:"stars-canvas",children:a.jsx(Gp,{})}),a.jsx("div",{className:"nebula-orb orb-one"}),a.jsx("div",{className:"nebula-orb orb-two"}),a.jsx("div",{className:"nebula-grid"}),a.jsx("div",{className:"cosmic-vignette"})]})}const Rs={reward_range:[.001,.999],reward_precision:3,task_presets:[{id:"easy_screening",label:"Easy Screening",difficulty:"easy",sub_environment:"DDI"},{id:"budgeted_screening",label:"Budgeted Screening",difficulty:"medium",sub_environment:"REGIMEN_RISK"},{id:"complex_tradeoff",label:"Complex Tradeoff",difficulty:"hard",sub_environment:"REGIMEN_RISK"},{id:"bandit_mining",label:"Bandit Mining",difficulty:"hard",sub_environment:"BANDIT_MINING"}],sub_environments:["DDI","BANDIT_MINING","REGIMEN_RISK","PRECISION_DOSING","LONGITUDINAL_DEPRESCRIBING","WEB_SEARCH_MISSING_DATA","ALTERNATIVE_SUGGESTION","NEW_DRUG_DECOMPOSITION"]},Xp=["total_reward","primary_safety_legality","primary_clinical_improvement","primary_dosing_quality","primary_process_integrity","legality_score","safety_delta_score","burden_improvement_score","disease_stability_score","dosing_quality_score","process_fidelity_score","explanation_grounding_score","anti_cheat_score","uncertainty_calibration_score"],zs="polyguard.qtips.v2.seen",Ls=[{target:"topbar",title:"Start here",body:"PolyGuard is an interactive OpenEnv workbench. Use this top bar to choose the runtime, pick a clinical scenario, and reset into a real environment episode."},{target:"mode",title:"Choose the runtime",body:"Agent Workbench uses the local REST API, candidate selector, reward breakdown, and Qwen-backed policy path. Env Explorer talks directly to the OpenEnv WebSocket service."},{target:"task",title:"Pick a scenario",body:"Choose Easy Screening, Budgeted Screening, Complex Tradeoff, or Bandit Mining. Reset Episode then loads a real patient/regimen state from the backend."},{target:"model",title:"Check the model truth",body:"This panel reports the live model-status endpoint. It only calls Qwen active when the API says Qwen/Qwen2.5-0.5B-Instruct artifacts are enabled and available."},{target:"overview",title:"Read the episode state",body:"After reset, this shows the active task, patient, remaining step budget, latest reward, and risk delta. These values come from the current environment response."},{target:"candidates",title:"Review legal actions",body:"Candidate Actions are the currently legal moves emitted by the environment. Select one to inspect its safety, uncertainty, target drug, and mode."},{target:"console",title:"Submit or ask the agent",body:"Submit Candidate executes the selected legal action. Run Agent lets the policy stack choose a step, so check the model panel first if you require Qwen-backed output."},{target:"rewards",title:"Inspect reward channels",body:"Reward Channels show real scorer output after each step. Empty values mean no step has produced that channel yet, not placeholder scoring."},{target:"medications",title:"Track regimen changes",body:"Medication cards update from the environment observation. High-risk tags and dose/class details help explain why actions are legal or useful."},{target:"history",title:"Audit actions and warnings",body:"Action History and Warnings give a running trace of what happened in the episode. Use this to verify that the workflow is not canned."},{target:"event-log",title:"Follow the run",body:"The Event Log records resets, steps, rewards, and API errors. If Qwen or an env service is unavailable, this is where the UI tells you plainly."}];function Cn(e){return typeof e=="object"&&e!==null&&!Array.isArray(e)}function pu(e){return typeof e=="number"&&Number.isFinite(e)?e:null}function Wn(e){const n=pu(e);return n===null?"-":n.toFixed(3)}function Je(e){return e.replace(/^primary_/,"").replace(/_/g," ").replace(/\b\w/g,n=>n.toUpperCase())}function Z(e){return e==null||e===""?"-":typeof e=="number"?Number.isFinite(e)?e.toFixed(e>10?0:3):"-":typeof e=="boolean"?e?"Yes":"No":Array.isArray(e)?e.length?e.map(Z).join(", "):"-":Cn(e)?JSON.stringify(e):String(e)}function yo(e,n){var t;return((t=n.find(r=>r.id===e))==null?void 0:t.label)??Je(e)}function Zp(e,n,t,r){const l=r.find(i=>i.id===e);return l?{agent:{task_id:l.id},env:{difficulty:l.difficulty,sub_environment:l.sub_environment}}:{agent:{difficulty:n,sub_environment:t},env:{difficulty:n,sub_environment:t}}}function Gr(e,n){return n!=="env"?e[0]??null:e.find(t=>t.legality_precheck!==!1&&t.action_type!=="KEEP_REGIMEN"&&!t.action_type.startsWith("REQUEST_"))??e.find(t=>t.legality_precheck!==!1&&t.action_type!=="KEEP_REGIMEN")??e[0]??null}function Yc(e){var u;if(!e)return{label:"Model status unavailable",detail:"The API did not return /policy/model_status. Results can still run, but Qwen cannot be verified here.",isQwen:!1,isLive:!1};if((u=e.ollama)!=null&&u.enabled&&e.ollama.available)return{label:"Ollama Qwen active",detail:`${e.ollama.model||"Ollama model"} is enabled locally; provider order=${(e.provider_preference??[]).join(" > ")||"ollama > transformers"}.`,isQwen:/qwen/i.test(e.ollama.model||""),isLive:!0};const n=e.model_id||e.base_model||e.runtime_model_name||"",t=/Qwen\/Qwen2\.5-0\.5B-Instruct/i.test(n),r=Object.values(e.availability??{}).some(Boolean),l=!!(e.enabled&&e.active&&r&&t),i=e.loaded_source||e.preferred_artifact||"artifact",o=e.load_error?` Load error: ${e.load_error}`:"";return{label:l?"Qwen 0.5B active":"Qwen not verified",detail:l?`${n} is enabled with ${i}; run ${e.run_id||"active manifest"}.${o}`:`${n||"No model"}; enabled=${String(e.enabled)} active=${String(e.active)} available=${String(r)}.${o}`,isQwen:t,isLive:l}}function Ms(e){const n=Cn(e.observation)?e.observation:null,t=Cn(e.info)?e.info:{};return{observation:n,reward:pu(e.reward),done:!!e.done,info:t}}function Jp(e,n,t){return{mode:e.mode||"REVIEW",action_type:e.action_type,target_drug:e.target_drug??null,replacement_drug:e.replacement_drug??null,dose_bucket:e.dose_bucket??"NA",taper_days:e.taper_days??null,monitoring_plan:e.monitoring_plan??null,evidence_query:e.evidence_query??null,new_drug_name:e.new_drug_name??null,candidate_components:e.candidate_components??[],candidate_id:e.candidate_id,confidence:n,rationale_brief:t}}function In(e,n){e(t=>[`${new Date().toLocaleTimeString()}  ${n}`,...t].slice(0,24))}function qp({open:e,step:n,steps:t,onNext:r,onPrev:l,onClose:i}){const[o,u]=L.useState(null),s=t[n],d=L.useCallback(()=>{if(!e||!s)return;const h=document.querySelector(`[data-guide="${s.target}"]`);if(!h){u(null);return}h.scrollIntoView({block:"nearest",inline:"nearest",behavior:"smooth"}),u(h.getBoundingClientRect())},[s,e]);if(L.useEffect(()=>(d(),window.addEventListener("resize",d),window.addEventListener("scroll",d,!0),()=>{window.removeEventListener("resize",d),window.removeEventListener("scroll",d,!0)}),[d]),!e||!s)return null;const v=o?{"--tip-top":`${Math.max(14,Math.min(window.innerHeight-260,o.bottom+12))}px`,"--tip-left":`${Math.max(14,Math.min(window.innerWidth-390,o.left))}px`}:void 0;return a.jsxs("div",{className:"qtip-overlay",role:"dialog","aria-modal":"true","aria-label":"Q Tips walkthrough",children:[a.jsx("div",{className:"qtip-dim",onClick:i}),o&&a.jsx("div",{className:"qtip-ring",style:{top:o.top-6,left:o.left-6,width:o.width+12,height:o.height+12}}),a.jsxs("section",{className:"qtip-card panel-surface",style:v,children:[a.jsxs("div",{className:"qtip-header",children:[a.jsx("span",{children:"Q Tips"}),a.jsxs("strong",{children:[n+1," / ",t.length]})]}),a.jsx("h2",{children:s.title}),a.jsx("p",{children:s.body}),a.jsxs("div",{className:"qtip-actions",children:[a.jsx("button",{className:"secondary",onClick:l,disabled:n===0,children:"Back"}),a.jsx("button",{className:"secondary",onClick:i,children:"Skip"}),a.jsx("button",{onClick:n===t.length-1?i:r,children:n===t.length-1?"Done":"Next"})]})]})]})}function bp({mode:e,setMode:n,taskId:t,onTaskChange:r,catalog:l,statusText:i,modelStatus:o,loading:u,onReset:s,onOpenTips:d}){const v=Yc(o);return a.jsxs("header",{className:"topbar panel-surface","data-guide":"topbar",children:[a.jsxs("div",{className:"title-wrap",children:[a.jsx("h1",{children:"PolyGuard"}),a.jsx("p",{children:"OpenEnv medication safety workbench"})]}),a.jsxs("div",{className:"mode-toggle","aria-label":"Runtime mode","data-guide":"mode",children:[a.jsx("button",{className:e==="agent"?"active":"",onClick:()=>n("agent"),children:"Agent Workbench"}),a.jsx("button",{className:e==="env"?"active":"",onClick:()=>n("env"),children:"Env Explorer"})]}),a.jsxs("div",{className:"topbar-status",children:[a.jsx("span",{className:`status-chip ${i==="Live"?"live":"idle"}`,children:i}),a.jsx("span",{className:`status-chip ${v.isLive?"live":"idle"}`,children:e==="agent"?v.label:"ws env"}),a.jsx("button",{className:"qtip-trigger secondary",onClick:d,children:"Q Tips"})]}),a.jsxs("div",{className:"topbar-actions","data-guide":"task",children:[a.jsxs("select",{"aria-label":"Task",value:t,onChange:h=>r(h.target.value),children:[l.task_presets.map(h=>a.jsx("option",{value:h.id,children:h.label},h.id)),a.jsx("option",{value:"advanced",children:"Advanced"})]}),a.jsx("button",{onClick:s,disabled:u,children:"Reset Episode"})]})]})}function eh({mode:e,observation:n,reward:t,done:r,taskId:l,catalog:i}){const o=(n==null?void 0:n.deterministic_contract)??{},u=(n==null?void 0:n.patient_summary)??{},s=(n==null?void 0:n.burden_score_summary)??{},d=[["Mode",e==="agent"?"Agent Workbench":"Env Explorer"],["Task",yo(l,i.task_presets)],["Difficulty",o.difficulty??"-"],["Environment",o.sub_environment??(n==null?void 0:n.sub_environment)??"-"],["Step Budget",(n==null?void 0:n.step_budget_remaining)??"-"],["Last Reward",Wn(t)],["Patient",u.patient_id??u.id??"-"],["Status",r?"Complete":n?"Live":"Ready"]];return a.jsxs("section",{className:"panel-surface panel-wide","data-guide":"overview",children:[a.jsxs("div",{className:"panel-heading",children:[a.jsx("h2",{children:"Episode Overview"}),a.jsx("span",{children:n?"Live":"Ready"})]}),a.jsx("div",{className:"kpi-grid",children:d.map(([v,h])=>a.jsxs("div",{children:[a.jsx("span",{children:v}),a.jsx("strong",{children:Z(h)})]},String(v)))}),a.jsxs("div",{className:"overview-lower",children:[a.jsxs("div",{children:[a.jsx("h3",{children:"Patient Summary"}),a.jsxs("dl",{className:"compact-defs",children:[Object.entries(u).slice(0,8).map(([v,h])=>a.jsxs("div",{children:[a.jsx("dt",{children:Je(v)}),a.jsx("dd",{children:Z(h)})]},v)),Object.keys(u).length===0&&a.jsx("p",{className:"muted",children:"No patient loaded."})]})]}),a.jsxs("div",{children:[a.jsx("h3",{children:"Risk Delta"}),a.jsxs("dl",{className:"compact-defs",children:[Object.entries(s).slice(0,8).map(([v,h])=>a.jsxs("div",{children:[a.jsx("dt",{children:Je(v)}),a.jsx("dd",{children:Z(h)})]},v)),Object.keys(s).length===0&&a.jsx("p",{className:"muted",children:"No risk data."})]})]})]})]})}function nh({candidates:e,selected:n,onSelect:t}){return a.jsxs("section",{className:"panel-surface panel-scroll","data-guide":"candidates",children:[a.jsxs("div",{className:"panel-heading",children:[a.jsx("h2",{children:"Candidate Actions"}),a.jsx("span",{children:e.length})]}),a.jsxs("div",{className:"candidate-list",children:[e.map(r=>{const l=r.candidate_id===(n==null?void 0:n.candidate_id),i=r.legality_precheck!==!1;return a.jsxs("button",{className:`candidate-row ${l?"selected":""} ${i?"":"illegal"}`,onClick:()=>{i&&t(r.candidate_id)},disabled:!i,children:[a.jsxs("span",{children:[a.jsx("strong",{children:r.candidate_id}),Je(r.action_type)]}),a.jsx("span",{children:Z(r.target_drug??r.replacement_drug??r.mode)}),a.jsx("span",{children:i?Wn(r.estimated_safety_delta):"Blocked"})]},r.candidate_id)}),e.length===0&&a.jsx("p",{className:"muted",children:"Reset an episode to load legal candidates."})]})]})}function th({mode:e,selected:n,confidence:t,rationale:r,loading:l,canSubmit:i,canRunAgent:o,done:u,terminationReason:s,onConfidence:d,onRationale:v,onSubmit:h,onAgent:m,onReset:w}){const k=[["Type",n==null?void 0:n.action_type],["Mode",n==null?void 0:n.mode],["Target",n==null?void 0:n.target_drug],["Replacement",n==null?void 0:n.replacement_drug],["Dose",n==null?void 0:n.dose_bucket],["Uncertainty",n==null?void 0:n.uncertainty_score]];return a.jsxs("section",{className:"panel-surface action-console","data-guide":"console",children:[a.jsxs("div",{className:"panel-heading",children:[a.jsx("h2",{children:"Action Console"}),a.jsx("span",{children:(n==null?void 0:n.candidate_id)??"-"})]}),a.jsx("div",{className:"action-detail-grid",children:k.map(([S,I])=>a.jsxs("div",{children:[a.jsx("span",{children:S}),a.jsx("strong",{children:Z(I)})]},String(S)))}),a.jsxs("label",{className:"field",children:[a.jsx("span",{children:"Confidence"}),a.jsx("input",{type:"number",min:"0.001",max:"0.999",step:"0.001",value:t.toFixed(3),onChange:S=>d(Number(S.target.value))})]}),a.jsxs("label",{className:"field",children:[a.jsx("span",{children:"Rationale"}),a.jsx("input",{value:r,onChange:S=>v(S.target.value)})]}),u&&a.jsxs("div",{className:"console-notice",children:[e==="env"?"Env Explorer":"Agent Workbench"," returned ",a.jsx("strong",{children:"done"}),s?` (${Je(s)})`:"",". Reset the episode before submitting another step."]}),a.jsxs("div",{className:"button-row",children:[a.jsx("button",{onClick:u?w:h,disabled:l||!i&&!u,children:u?"Reset Episode":e==="env"?"Submit Env Step":"Submit Candidate"}),a.jsx("button",{className:"secondary",onClick:m,disabled:e!=="agent"||l||u||!o,children:"Run Agent"})]})]})}function rh({meds:e}){return a.jsxs("section",{className:"panel-surface panel-wide","data-guide":"medications",children:[a.jsxs("div",{className:"panel-heading",children:[a.jsx("h2",{children:"Current Medications"}),a.jsx("span",{children:e.length})]}),a.jsxs("div",{className:"med-grid",children:[e.map((n,t)=>{const r=[n.beers_flag,n.flag,n.warning].filter(Boolean),l=!!(n.high_risk??n.is_high_risk_elderly??r.length);return a.jsxs("article",{className:`med-card ${l?"high-risk":""}`,children:[a.jsxs("div",{className:"med-card-header",children:[a.jsx("strong",{children:Z(n.drug??n.drug_id??n.name)}),l&&a.jsx("span",{children:"High Risk"})]}),a.jsx("p",{children:Z(n.indication??n.class_name??n.atc_class)}),a.jsxs("div",{className:"med-meta",children:[a.jsx("span",{children:Z(n.dose_bucket??n.dose_mg??n.dose)}),a.jsx("span",{children:Z(n.requires_taper?"taper":n.monitoring??n.route)})]})]},`${Z(n.drug)}-${t}`)}),e.length===0&&a.jsx("p",{className:"muted",children:"No medications loaded."})]})]})}function lh({rewardBreakdown:e,reward:n}){const t=e??{total_reward:n};return a.jsxs("section",{className:"panel-surface panel-scroll","data-guide":"rewards",children:[a.jsxs("div",{className:"panel-heading",children:[a.jsx("h2",{children:"Reward Channels"}),a.jsx("span",{children:Wn(t.total_reward??n)})]}),a.jsx("div",{className:"reward-bars",children:Xp.map(r=>{const l=pu(t[r]),i=Math.max(.5,Math.min(l??0,.999)*100);return a.jsxs("div",{className:"reward-row",children:[a.jsx("span",{children:Je(r)}),a.jsx("div",{className:"reward-track",children:a.jsx("div",{className:"reward-fill",style:{width:`${i}%`}})}),a.jsx("strong",{children:Wn(l)})]},r)})})]})}function ih({status:e}){const n=Yc(e),t=(e==null?void 0:e.availability)??{},r=Object.entries(t);return a.jsxs("section",{className:`model-truth panel-surface ${n.isLive?"verified":"unverified"}`,"data-guide":"model",children:[a.jsxs("div",{className:"panel-heading",children:[a.jsx("h2",{children:"Model Truth"}),a.jsx("span",{children:n.label})]}),a.jsx("p",{children:n.detail}),a.jsxs("div",{className:"model-truth-grid",children:[a.jsxs("div",{children:[a.jsx("span",{children:"Model"}),a.jsx("strong",{children:Z((e==null?void 0:e.model_id)??(e==null?void 0:e.base_model)??"unavailable")})]}),a.jsxs("div",{children:[a.jsx("span",{children:"Run"}),a.jsx("strong",{children:Z(e==null?void 0:e.run_id)})]}),a.jsxs("div",{children:[a.jsx("span",{children:"Artifact"}),a.jsx("strong",{children:Z((e==null?void 0:e.loaded_source)||(e==null?void 0:e.preferred_artifact))})]}),a.jsxs("div",{children:[a.jsx("span",{children:"Availability"}),a.jsx("strong",{children:r.length?r.map(([l,i])=>`${Je(l)}:${i?"yes":"no"}`).join(" | "):"-"})]})]})]})}function oh({observation:e}){const n=(e==null?void 0:e.action_history)??[],t=(e==null?void 0:e.warning_summary)??[];return a.jsx("section",{className:"panel-surface panel-wide","data-guide":"history",children:a.jsxs("div",{className:"history-grid",children:[a.jsxs("div",{children:[a.jsxs("div",{className:"panel-heading inline-heading",children:[a.jsx("h2",{children:"Action History"}),a.jsx("span",{children:n.length})]}),a.jsxs("div",{className:"history-list",children:[n.map((r,l)=>{const i=Cn(r.action)?r.action:r;return a.jsxs("div",{className:"history-item",children:[a.jsxs("strong",{children:["Step ",Z(r.step??l)," - ",Je(Z(i.action_type??"action"))]}),a.jsx("span",{children:Z(i.candidate_id??i.target_drug??r.reward)})]},`${l}-${Z(r.step??l)}`)}),n.length===0&&a.jsx("p",{className:"muted",children:"No actions yet."})]})]}),a.jsxs("div",{children:[a.jsxs("div",{className:"panel-heading inline-heading",children:[a.jsx("h2",{children:"Warnings"}),a.jsx("span",{children:t.length})]}),a.jsxs("div",{className:"history-list",children:[t.map((r,l)=>a.jsx("div",{className:"history-item warning",children:r},`${r}-${l}`)),t.length===0&&a.jsx("p",{className:"muted",children:"No active warnings."})]})]})]})})}function _i({title:e,data:n}){const t=Array.isArray(n)?n.length>0:Cn(n)&&Object.keys(n).length>0;return a.jsxs("section",{className:"panel-surface detail-panel",children:[a.jsx("div",{className:"panel-heading",children:a.jsx("h2",{children:e})}),t?a.jsx("pre",{children:JSON.stringify(n,null,2)}):a.jsx("p",{className:"muted",children:"No data."})]})}function uh({events:e,error:n}){return a.jsxs("section",{className:"panel-surface panel-wide event-panel","data-guide":"event-log",children:[a.jsxs("div",{className:"panel-heading",children:[a.jsx("h2",{children:"Event Log"}),a.jsx("span",{children:e.length})]}),n&&a.jsx("div",{className:"error-banner",children:n}),a.jsxs("div",{className:"event-log",children:[e.map((t,r)=>a.jsx("div",{children:t},`${t}-${r}`)),e.length===0&&a.jsx("p",{className:"muted",children:"Events will appear here."})]})]})}function sh(){const[e,n]=L.useState("agent"),[t,r]=L.useState(Rs),[l,i]=L.useState("budgeted_screening"),[o,u]=L.useState("medium"),[s,d]=L.useState("REGIMEN_RISK"),[v,h]=L.useState(null),[m,w]=L.useState(null),[k,S]=L.useState(null),[I,f]=L.useState(null),[c,p]=L.useState(!1),[g,x]=L.useState(!1),[C,N]=L.useState(null),[j,Q]=L.useState(.75),[z,ke]=L.useState("Selected from the interactive workbench."),[Ln,Te]=L.useState(null),[jr,zt]=L.useState(null),[Lt,Jn]=L.useState(null),[_,T]=L.useState(null),[R,A]=L.useState(null),[J,cn]=L.useState(null),[De,Mn]=L.useState(null),[qe,he]=L.useState([]),[hu,qn]=L.useState(!1),[Xc,On]=L.useState(null),[Zc,mu]=L.useState(()=>{try{return window.localStorage.getItem(zs)!=="true"}catch{return!0}}),[Jc,Gl]=L.useState(0),Mt=L.useCallback(async()=>{try{const P=await Hp();return T(P),P}catch{return T(null),null}},[]);L.useEffect(()=>(Up().then(r).catch(()=>r(Rs)),Mt().then(P=>{P||In(he,"Model status endpoint unavailable; Qwen cannot be verified yet.")}),()=>$p()),[Mt]);const Fe=e==="agent"?v:m,Yl=e==="agent"?k:I,Ot=e==="agent"?c:g,It=(Fe==null?void 0:Fe.candidate_action_set)??[],He=L.useMemo(()=>It.find(P=>P.candidate_id===C)??Gr(It,e),[It,e,C]),qc=Ot?"Complete":Fe?"Live":"Ready",Xl=e==="agent"?jr:Lt,vu=Z(Xl==null?void 0:Xl.termination_reason),bc=vu!=="-"?vu:null,ed=[["Runtime",e==="agent"?"Agent Workbench":"Env Explorer"],["Scenario",yo(l,t.task_presets)],["Candidates",String(It.length)],["Reward",Wn(Yl)]],nd=()=>{mu(!1);try{window.localStorage.setItem(zs,"true")}catch{}},td=P=>{i(P);const W=t.task_presets.find(V=>V.id===P);W&&(u(W.difficulty),d(W.sub_environment))},rd=P=>{P!==e&&(n(P),he([]),On(null),N(null),P==="agent"?(h(null),S(null),p(!1),zt(null),Te(null),A(null),cn(null),Mn(null)):(w(null),f(null),x(!1),Jn(null),Te(null)))},gu=L.useCallback(async(P,W)=>{var Ft,Tr;const V=Ms(P);h(V.observation),S(V.reward),p(V.done),zt(V.info),A(P.final_action??null),cn(P.explanation??null),Mn(P.evidence);const me=Cn(P.final_action)?P.final_action:null,bn=typeof(me==null?void 0:me.candidate_id)=="string"?me.candidate_id:null,et=((Ft=V.observation)==null?void 0:Ft.candidate_action_set)??[];N(bn&&et.some(od=>od.candidate_id===bn)?bn:((Tr=Gr(et,"agent"))==null?void 0:Tr.candidate_id)??null);const Pr=V.info.reward_breakdown??await Vp().catch(()=>null);Te(Pr??null);const Dt=Z(V.info.termination_reason);In(he,`${W} reward ${Wn(V.reward)}${V.done&&Dt!=="-"?` - complete: ${Dt}`:""}`)},[]),yu=L.useCallback((P,W,V)=>{var Dt,Ft;const me=Ms(P),bn=((Dt=me.observation)==null?void 0:Dt.candidate_action_set)??[];w(me.observation),f(me.reward),x(me.done),Jn(me.info),N(V&&bn.some(Tr=>Tr.candidate_id===V)?V:((Ft=Gr(bn,"env"))==null?void 0:Ft.candidate_id)??null);const et=me.info.reward_breakdown;Cn(et)&&Object.keys(et).length>0?Te(et):Te(null);const Pr=Z(me.info.termination_reason);In(he,`${W} reward ${Wn(me.reward)}${me.done&&Pr!=="-"?` - complete: ${Pr}`:""}`)},[]),wu=async()=>{var P;qn(!0),On(null),he([]);try{const W=Zp(l,o,s,t.task_presets);if(e==="agent"){await Mt();const V=await Bp(W.agent);h(V),S(null),p(!1),zt(null),Te(null),A(null),cn(null),Mn(null),N(((P=Gr(V.candidate_action_set,"agent"))==null?void 0:P.candidate_id)??null)}else{const V=await Ts("reset",W.env);yu(V,"Env reset")}In(he,`Reset ${yo(l,t.task_presets)} in ${e}`)}catch(W){const V=W instanceof Error?W.message:"Reset failed";On(V),In(he,V)}finally{qn(!1)}},ld=async()=>{if(He){qn(!0),On(null);try{if(e==="agent"){const P=await Wp({candidate_id:He.candidate_id,confidence:j,rationale_brief:z});await gu(P,Je(He.action_type)),await Mt()}else{const P=Jp(He,j,z),W=await Ts("step",P);yu(W,Je(He.action_type),He.candidate_id)}}catch(P){const W=P instanceof Error?P.message:"Step failed";On(W),In(he,W)}finally{qn(!1)}}},id=async()=>{qn(!0),On(null);try{const P=await Qp();await gu(P,"Agent"),await Mt()}catch(P){const W=P instanceof Error?P.message:"Agent run failed";On(W),In(he,W)}finally{qn(!1)}};return a.jsxs("div",{className:"workbench-shell",children:[a.jsx(Yp,{}),a.jsxs("div",{className:"workbench-container",children:[a.jsxs("section",{className:"metaverse-hero panel-surface",children:[a.jsxs("div",{className:"hero-copy",children:[a.jsxs("div",{className:"welcome-box",children:[a.jsx("span",{className:"spark-glyph",children:"*"}),a.jsx("span",{className:"welcome-text",children:"PolyGuard neural safety cockpit"})]}),a.jsxs("h2",{children:["Clinical medication safety, guided by",a.jsx("span",{children:" constrained RL decisions."})]}),a.jsx("p",{children:"PolyGuard coordinates live OpenEnv episodes, candidate actions, reward channels, and evidence-grounded policy traces for safer polypharmacy review."})]}),a.jsx("div",{className:"hero-stat-grid","aria-label":"Current workbench state",children:ed.map(([P,W])=>a.jsxs("div",{children:[a.jsx("span",{children:P}),a.jsx("strong",{children:W})]},P))})]}),a.jsx(bp,{mode:e,setMode:rd,taskId:l,onTaskChange:td,catalog:t,statusText:qc,modelStatus:_,loading:hu,onReset:wu,onOpenTips:()=>{Gl(0),mu(!0)}}),a.jsx(ih,{status:_}),l==="advanced"&&a.jsxs("section",{className:"advanced-strip panel-surface",children:[a.jsxs("label",{className:"field",children:[a.jsx("span",{children:"Difficulty"}),a.jsxs("select",{value:o,onChange:P=>u(P.target.value),children:[a.jsx("option",{value:"easy",children:"easy"}),a.jsx("option",{value:"medium",children:"medium"}),a.jsx("option",{value:"hard",children:"hard"})]})]}),a.jsxs("label",{className:"field",children:[a.jsx("span",{children:"Environment"}),a.jsx("select",{value:s,onChange:P=>d(P.target.value),children:t.sub_environments.map(P=>a.jsx("option",{value:P,children:P},P))})]})]}),a.jsxs("main",{className:"workbench-layout",children:[a.jsx(eh,{mode:e,observation:Fe,reward:Yl,done:Ot,taskId:l,catalog:t}),a.jsx(nh,{candidates:It,selected:He,onSelect:N}),a.jsx(th,{mode:e,selected:He,confidence:j,rationale:z,loading:hu,canSubmit:!!(He&&He.legality_precheck!==!1&&Fe&&!Ot),canRunAgent:!!(e==="agent"&&Fe&&!Ot),done:Ot,terminationReason:bc,onConfidence:Q,onRationale:ke,onSubmit:ld,onAgent:id,onReset:wu}),a.jsx(lh,{rewardBreakdown:Ln,reward:Yl}),a.jsx(rh,{meds:(Fe==null?void 0:Fe.medication_table)??[]}),a.jsx(oh,{observation:Fe}),a.jsx(_i,{title:"Decision",data:e==="agent"?R:null}),a.jsx(_i,{title:"Explanation",data:e==="agent"?J:null}),a.jsx(_i,{title:"Evidence",data:e==="agent"&&(Cn(De)||Array.isArray(De))?De:null}),a.jsx(uh,{events:qe,error:Xc})]}),a.jsx(qp,{open:Zc,step:Jc,steps:Ls,onNext:()=>Gl(P=>Math.min(P+1,Ls.length-1)),onPrev:()=>Gl(P=>Math.max(P-1,0)),onClose:nd})]})]})}Ei.createRoot(document.getElementById("root")).render(a.jsx(_d.StrictMode,{children:a.jsx(sh,{})}));
diff --git a/app/ui/frontend/dist/blackhole.webm b/app/ui/frontend/dist/blackhole.webm
deleted file mode 100644
index dd40f2d9c469ab252993a1619e5ae533b0f7e7ae..0000000000000000000000000000000000000000
--- a/app/ui/frontend/dist/blackhole.webm
+++ /dev/null
@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c3d7becf1e5b51c78dd83991f839510d81ab2d0a244de2d51b98ac523a9e485e
-size 757186
diff --git a/app/ui/frontend/dist/index.html b/app/ui/frontend/dist/index.html
deleted file mode 100644
index 24577a4b70f53bd89da7ca9f65d8b488834d0d4d..0000000000000000000000000000000000000000
--- a/app/ui/frontend/dist/index.html
+++ /dev/null
@@ -1,13 +0,0 @@
-<!doctype html>
-<html lang="en">
-  <head>
-    <meta charset="UTF-8" />
-    <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-    <title>POLYGUARD-RL Workbench</title>
-    <script type="module" crossorigin src="/assets/index-DgY-oaWG.js"></script>
-    <link rel="stylesheet" crossorigin href="/assets/index-DV0STDGE.css">
-  </head>
-  <body>
-    <div id="root"></div>
-  </body>
-</html>
diff --git a/checkpoints/README.md b/checkpoints/README.md
deleted file mode 100644
index 48d47157fd553341cc1f84e40b113699a28a08c2..0000000000000000000000000000000000000000
--- a/checkpoints/README.md
+++ /dev/null
@@ -1,23 +0,0 @@
-# Local checkpoints (not in Git)
-
-Trained weights live here so clones stay small. After cloning, install the published bundle:
-
-```bash
-cd polyguard-rl
-python scripts/install_hf_active_bundle.py
-```
-
-That creates **`active/`** with:
-
-| Path | Contents |
-|------|----------|
-| `active/active_model_manifest.json` | Which artifact to load (GRPO vs merged vs SFT) |
-| `active/grpo_adapter/` | PEFT GRPO adapter (+ tokenizer files) |
-| `active/merged/` | Full merged Qwen 0.5B weights (~1 GB) |
-| `active/sft_adapter/` | SFT LoRA fallback |
-
-A Hub cache copy may also appear under `.hf_bundles/` (safe to delete after a successful install).
-
-Enable in `.env`: `POLYGUARD_ENABLE_ACTIVE_MODEL=true` and `POLYGUARD_HF_MODEL=Qwen/Qwen2.5-0.5B-Instruct` (base for the adapter path).
-
-**If this folder looks empty in the editor:** run the install command above; then confirm with `ls active/`.
diff --git a/docker/space/README.md b/docker/space/README.md
index 423e2a969f36e5d6a4fa3eea12b27ee47f022227..f249ecbed7767415e96fc6844eff52800b6e5836 100644
--- a/docker/space/README.md
+++ b/docker/space/README.md
@@ -12,24 +12,16 @@ Never commit or paste Hugging Face tokens into chat or the repo. If a token was
 
    ```bash
    cd polyguard-rl
-   docker build -t polyguard-space .
+   docker build -f Dockerfile.space -t polyguard-space .
    ```
 
-3. Push the Space repo. The root **`Dockerfile`** is the full demo (Vite UI + nginx + API + OpenEnv). Hugging Face uses it automatically when **Dockerfile path** is empty. If your Space was created earlier with a different Dockerfile, trigger **Factory reboot** after pushing so the new image builds.
+3. Push the Space repo (HF expects `Dockerfile` at root). Either:
 
-4. Commit and push to the Space repository. HF builds the image on their builders (you do not need to `docker push` to Docker Hub for standard Spaces).
-
-## FDA panel / latest UI missing on the live Space
-
-Pushing code to GitHub alone does **not** refresh `huggingface.co/spaces/...` unless that Space is connected to the same repo **and** rebuilds from the branch that has your UI (for example `fda` vs `main`). This repo’s usual demo path is **upload via Hub API**:
+   - **Option A:** In the Space repo on Hub, set **Build → Dockerfile path** to `Dockerfile.space` if the UI allows, **or** copy/rename: `cp Dockerfile.space Dockerfile` in the branch you push.
 
-```bash
-cd polyguard-rl
-export HF_TOKEN="hf_..."   # write token; never commit it
-uv run python scripts/deploy_space_api.py --repo-id TheJackBright/polyguard-openenv
-```
+   - **Option B:** Make this `polyguard-rl` folder the Space git root and add a symlink or duplicate `Dockerfile` pointing to the same content as `Dockerfile.space`.
 
-Wait for **Build** in the Space logs to finish, then use **Factory reboot** or a hard browser refresh if the page still looks old. **Dockerfile path** should be empty (default `Dockerfile`) or `Dockerfile` / `Dockerfile.space`. If the Space uses the **full monorepo** as its Git root, set Dockerfile path to the repo-root `Dockerfile` or to `polyguard-rl/Dockerfile`.
+4. Commit and push to the Space repository. HF builds the image on their builders (you do not need to `docker push` to Docker Hub for standard Spaces).
 
 ## Runtime
 
diff --git a/docs/DEMO_RECORDING_SCRIPT.md b/docs/DEMO_RECORDING_SCRIPT.md
index 96a764819c1271e02e364cffefa21378eec8f6b5..d8aafc3fd36c8e9f77a0406bec39255114ce6981 100644
--- a/docs/DEMO_RECORDING_SCRIPT.md
+++ b/docs/DEMO_RECORDING_SCRIPT.md
@@ -12,7 +12,7 @@ Use this document while screen-recording the Hugging Face Space (or local Docker
 4. **Wait for cold start**: first load may download the model bundle (several minutes). The **Event Log** and **Model Truth** panel will tell you if the policy failed to load (heuristic fallback is still usable for env steps).
 5. **Optional**: hide mouse cursor in OBS if you prefer; otherwise move slowly and pause **2 seconds** on each panel after major clicks.
 
-**Primary Space (product):** `https://huggingface.co/spaces/TheJackBright/polyguard-openenv`  
+**Primary Space (product):** `https://huggingface.co/spaces/TheJackBright/polyguard-openenv-workbench`
 Runtime: nginx fronts the **product API** (default `8200`) and **OpenEnv service** (`8100`); see `docker/space/entrypoint.sh`.
 
 ---
@@ -391,7 +391,7 @@ Click **Q Tips** in the top bar. The app cycles **10 slides** (`App.tsx` → `GU
 **Say:** *“This patient block and risk delta come straight from the observation object.”*
 
 **Action:** **Candidate Actions** — click 2–3 rows; show **Blocked** vs legal. Select a **legal** row.  
-**Say:** *“Candidates are legal moves from the env; illegal rows are disabled .”*
+**Say:** *“Candidates are legal moves from the env; illegal rows are disabled.”*
 
 **Action:** **Action Console** — tweak **Confidence** and **Rationale** slightly. Click **Submit Candidate**.  
 **Say:** *“Submit Candidate hits `/env/step_candidate` with my chosen legal action, confidence, and rationale.”*
diff --git a/docs/UI Images/1.jpeg b/docs/UI Images/1.jpeg
new file mode 100644
index 0000000000000000000000000000000000000000..af60f6a7c96c354379643cd5b90fb376fca2ad2d
--- /dev/null
+++ b/docs/UI Images/1.jpeg	
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e40cc85b856748a12d32ea7f33d1ac896ae3110e150b87c46468693102f09a3
+size 200720
diff --git a/docs/UI Images/2.jpeg b/docs/UI Images/2.jpeg
new file mode 100644
index 0000000000000000000000000000000000000000..a93316b58c5532f8c29293b7fca05c10f335b5aa
--- /dev/null
+++ b/docs/UI Images/2.jpeg	
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:729168a9a3a745db89ffa9c55a061ca5e23ac7402bc1f8cf4a33648ab5026aac
+size 176413
diff --git a/docs/UI Images/3.jpeg b/docs/UI Images/3.jpeg
new file mode 100644
index 0000000000000000000000000000000000000000..7abc1dac9bc53ead91ec4828dcfa71b562e8b584
--- /dev/null
+++ b/docs/UI Images/3.jpeg	
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7662174aa1f1dd5065cfdd66a3103d74ca5885681776d7eb1b1303e1049c4aa2
+size 184603
diff --git a/docs/UI Images/4.jpeg b/docs/UI Images/4.jpeg
new file mode 100644
index 0000000000000000000000000000000000000000..6dc34b48c6e8faf53dae6c6c1d9ba61730db680f
--- /dev/null
+++ b/docs/UI Images/4.jpeg	
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eaa5a1f56bf38173793923d5f3d7325945803a748cef77d954d1239146b054fb
+size 166704
diff --git a/docs/UI Images/5.jpeg b/docs/UI Images/5.jpeg
new file mode 100644
index 0000000000000000000000000000000000000000..818078b860de463d6ac69f27d14863ae6514d77e
--- /dev/null
+++ b/docs/UI Images/5.jpeg	
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3a05e35807442729a8d2673f5ee9a247a26f5a3d99ecbd7e7bed794d166b3ece
+size 149861
diff --git a/docs/assets/diagrams/data_training_pipeline.png b/docs/assets/diagrams/data_training_pipeline.png
new file mode 100644
index 0000000000000000000000000000000000000000..8610ef29072da18e490eecf09d9a5004eaebb771
--- /dev/null
+++ b/docs/assets/diagrams/data_training_pipeline.png
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e5acd3297575a03daafaaf6b9d8dd14d59f6cb9ad2156acc0f66a33c1b85ac8b
+size 131170
diff --git a/docs/assets/diagrams/deployment_topology.png b/docs/assets/diagrams/deployment_topology.png
new file mode 100644
index 0000000000000000000000000000000000000000..5d4bcbcf04c471c9d674bcc2588b276704b93c45
--- /dev/null
+++ b/docs/assets/diagrams/deployment_topology.png
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:54b8354d834a4b7102daa159db052578a5a95e278c3b970eaa24dd879280b8c1
+size 127050
diff --git a/docs/assets/diagrams/episode_state_machine.png b/docs/assets/diagrams/episode_state_machine.png
new file mode 100644
index 0000000000000000000000000000000000000000..97406a57fb13e680d03aafc14dfcfe9c6e958a8e
Binary files /dev/null and b/docs/assets/diagrams/episode_state_machine.png differ
diff --git a/docs/assets/diagrams/evidence_generation_flow.png b/docs/assets/diagrams/evidence_generation_flow.png
new file mode 100644
index 0000000000000000000000000000000000000000..0d1724979458a7b91e14c10bba7eb3f478fbca71
Binary files /dev/null and b/docs/assets/diagrams/evidence_generation_flow.png differ
diff --git a/docs/assets/diagrams/frontend_runtime_surface.png b/docs/assets/diagrams/frontend_runtime_surface.png
new file mode 100644
index 0000000000000000000000000000000000000000..12bd49ecabeda2bfa5b281a2206ceeaf826ea47d
--- /dev/null
+++ b/docs/assets/diagrams/frontend_runtime_surface.png
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8fc691e5fa5fe031f5db59d1b4c9ebbc6420c501a875c27282358f320da10fa8
+size 129660
diff --git a/docs/assets/diagrams/multi_agent_orchestration.png b/docs/assets/diagrams/multi_agent_orchestration.png
new file mode 100644
index 0000000000000000000000000000000000000000..8f82019eeb11c6b8c9ee66f90c733cf7730c7c0f
--- /dev/null
+++ b/docs/assets/diagrams/multi_agent_orchestration.png
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:07e6dd62bdfb3421852e98b614782265225cc55cb70c29fbfed0100f89639415
+size 121049
diff --git a/docs/assets/diagrams/reward_decomposition.png b/docs/assets/diagrams/reward_decomposition.png
new file mode 100644
index 0000000000000000000000000000000000000000..94af590c8d9c84f744fb5bd82a9c93cb03c536c4
--- /dev/null
+++ b/docs/assets/diagrams/reward_decomposition.png
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0097da00a5a3f40182356e366080752ffbd46ee8ffa27ed708b8eec0e06a30dc
+size 123125
diff --git a/docs/assets/diagrams/runtime_step_flow.png b/docs/assets/diagrams/runtime_step_flow.png
new file mode 100644
index 0000000000000000000000000000000000000000..f89c490bd560c58628efbc871be48d6391071e2b
Binary files /dev/null and b/docs/assets/diagrams/runtime_step_flow.png differ
diff --git a/docs/assets/diagrams/system_architecture.png b/docs/assets/diagrams/system_architecture.png
new file mode 100644
index 0000000000000000000000000000000000000000..bf0cf58369b646bdccd94ac7bd071ffbba0cb89e
--- /dev/null
+++ b/docs/assets/diagrams/system_architecture.png
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c093bb1b3b6e0aee53eee8851789cc448f3c9c4a082ab58671327b83a379c8b2
+size 156083
diff --git a/docs/deployment.md b/docs/deployment.md
index 4400b4ce81502af3f6dd788fe1aaac7af3f300ea..b9c66add7c9655d7f56123b90f55b459d47dd597 100644
--- a/docs/deployment.md
+++ b/docs/deployment.md
@@ -24,13 +24,13 @@ The global `hf` command on this workstation currently fails because its installe
 ## Hugging Face Space Deployment
 
 ```bash
-export HF_SPACE_REPO_ID="TheJackBright/polyguard-openenv"
+export HF_SPACE_REPO_ID="TheJackBright/polyguard-openenv-workbench"
 uv run python scripts/deploy_space_api.py --repo-id "$HF_SPACE_REPO_ID"
 uv run python -c "from huggingface_hub import HfApi; print(HfApi().space_info('$HF_SPACE_REPO_ID').id)"
-openenv validate --url "https://thejackbright-polyguard-openenv.hf.space"
+openenv validate --url "https://thejackbright-polyguard-openenv-workbench.hf.space"
 ```
 
-`scripts/deploy_space_api.py` is the preferred deployment path for this repo because it uploads a valid Docker Space README frontmatter bundle through `huggingface_hub.HfApi`. `scripts/deploy_space.sh` remains available, but the current OpenEnv CLI path may fail with invalid generated `colorFrom`/`colorTo` metadata. Pushing to GitHub alone does not change the Hub Space unless that Space is configured to rebuild from that repo and branch; run the deploy script (with `HF_TOKEN`) after UI or API changes so the Docker image rebuilds. See `docker/space/README.md` for Dockerfile path, monorepo layout, and cache/reboot notes.
+`scripts/deploy_space_api.py` is the preferred deployment path for this repo because it uploads a valid Docker Space README frontmatter bundle through `huggingface_hub.HfApi`. `scripts/deploy_space.sh` remains available, but the current OpenEnv CLI path may fail with invalid generated `colorFrom`/`colorTo` metadata.
 
 Useful `scripts/deploy_space.sh` flags:
 
diff --git a/docs/evaluation.md b/docs/evaluation.md
index a591036e3565208d6ab6e3c3ce5ef12ec99d3d20..cb3a35e345ff3bda6a3e3a4e773fe00a2d4324a6 100644
--- a/docs/evaluation.md
+++ b/docs/evaluation.md
@@ -40,4 +40,6 @@ Final comparison must show positive or non-regressing behavior on:
 - timeout rate
 - failure visibility
 
-Current tracked smoke artifacts are not final evidence: `docs/results/improvement_report.json` currently records `improved: false`. Replace it after real SFT/GRPO training.
+Older smoke artifacts are retained for auditability, but final claims should use
+the curated bundle under `docs/results/final_submission_evidence/`. The root
+repository README is the canonical narrative and evidence map.
diff --git a/docs/final_submission_audit.md b/docs/final_submission_audit.md
deleted file mode 100644
index ce5267ddcfde1491e690c5bd794fbcb494cc6de5..0000000000000000000000000000000000000000
--- a/docs/final_submission_audit.md
+++ /dev/null
@@ -1,42 +0,0 @@
-# Final Submission Audit
-
-Audit date: April 26, 2026.
-
-## Status Summary
-
-PolyGuard implements the participant-guide stack from dataset acquisition through OpenEnv environment, rewards, SFT, GRPO, inference, UI/API product, evaluation, and Hugging Face Space deployment. The public environment Space is live at `https://huggingface.co/spaces/TheJackBright/polyguard-openenv` and the runtime health endpoint returned `{"status":"healthy"}` during this audit.
-
-The only known judge-facing blocker is external storytelling: the README blog URL `https://huggingface.co/blog/TheJackBright/polyguard-openenv` currently returns 404 until `docs/hf_blog_draft.md` is published there or the README is updated with a real YouTube/slide/blog URL.
-
-## Requirement Matrix
-
-| Requirement area | Status | Evidence |
-| --- | --- | --- |
-| Problem statement and theme fit | Implemented | README describes safe long-horizon polypharmacy action selection under World Modeling / Professional Tasks. |
-| OpenEnv environment | Implemented | `openenv.yaml`, `PolyGuardEnv`, FastAPI `/reset`, `/step`, `/state`, `/metadata`, `/schema`, `/mcp`, and `/ws`; `uv run openenv validate .` passes. |
-| Dataset acquisition and preprocessing | Implemented | `scripts/bootstrap_data.py`, `scripts/ingest_open_drug_sources.py`, `scripts/build_training_corpus.py`, `data/processed/*`, `data/scenarios/*`, and `docs/dataset_report.md`. |
-| Easy/medium/hard curriculum | Implemented | Scenario JSON/JSONL sets plus task presets exposed through `/env/catalog`. |
-| Rewards and anti-hacking | Implemented | 13 reward components, 4 primary channels, bounded reward scaling, timeout handling, `app/env/anti_cheat.py`, and reward/anti-cheat tests. |
-| Training loop | Implemented | `scripts/train_sft_trl.py`, `scripts/train_grpo_trl.py`, `app/training/grpo_trl.py`, and `app/hf_space/training_runner.py`. |
-| TRL / Unsloth stack | Implemented with fallback reality documented | TRL path is active and reports `trl_transformers`; Unsloth is wired as optional but was unavailable in current reports. |
-| Post-training export and inference | Implemented | `scripts/merge_adapters_safe.py`, `scripts/test_inference_postsave.py`, active model manifest, and API/UI model status path. |
-| Product/demo | Implemented | FastAPI product API, React/Vite workbench, policy lab, training monitor, replay, dosing, and safety views. |
-| Results and plots | Implemented | Tracked `docs/results/*.json` and PNG plots, including SFT baseline sweep evidence and top-level environment-backed GRPO evidence. |
-| HF Space deployment | Implemented | Public Space is running on CPU basic, Space metadata is available, and tracked `docs/results/hf_space_verification.json` reports OpenEnv validation passed. |
-| Colab notebook | Implemented | README Colab URL targets `PolyGuard_SFT_GRPO_One_Run_Runner.ipynb`; `notebooks/09_training_loop.ipynb` is the modular alternative. |
-| Story artifact | Pending external publication | `docs/hf_blog_draft.md` exists, but the README blog URL returns 404 until published. |
-| Full public per-model GRPO sweep | Not claimed | Current public/tracked evidence is a 3-model SFT-baseline sweep plus a top-level GRPO run. Private training artifact repos require auth and must be mirrored before being used as public evidence. |
-
-## Fresh Verification
-
-- `uv run pytest`: 49 tests passed.
-- `uv run openenv validate .`: local OpenEnv validation passed.
-- `POLYGUARD_ENFORCE_SUBMISSION_LINKS=true uv run python scripts/acceptance_gate.py`: strict gate passed.
-- `curl -s https://thejackbright-polyguard-openenv.hf.space/health`: returned `{"status":"healthy"}`.
-- `curl -s https://thejackbright-polyguard-openenv.hf.space/metadata`: returned PolyGuard OpenEnv metadata with reward range `[0.001, 0.999]`.
-
-## Submission Notes
-
-- Publish the Hugging Face blog draft or replace the story URL before final hand-in.
-- Run `uv run python scripts/validate_submission_links.py` after publication to catch broken README URLs.
-- Do not add private HF artifact repos as judge-facing links unless they are made public or their outputs are mirrored into the repository/Space documentation.
diff --git a/docs/hf_blog_draft.md b/docs/hf_blog_draft.md
deleted file mode 100644
index 012522be41266817df10cdd993c8818da06e1b11..0000000000000000000000000000000000000000
--- a/docs/hf_blog_draft.md
+++ /dev/null
@@ -1,17 +0,0 @@
-# PolyGuard OpenEnv Blog Draft
-
-PolyGuard turns polypharmacy safety into an OpenEnv-compatible reinforcement-learning environment. The agent sees a partially observable patient/regimen state, chooses constrained medication actions, and receives verifier-backed feedback over legality, safety, dosing quality, process fidelity, explanation grounding, uncertainty calibration, and anti-cheat checks.
-
-The environment targets the World Modeling / Professional Tasks theme. Medication optimization is not a one-shot answer task: safe action selection depends on state, evidence, comorbidities, labs, drug-drug interactions, uncertainty, and rollback behavior when an action is unsafe.
-
-The demo includes:
-
-- Easy, medium, and hard task presets over DDI screening, regimen risk, bandit mining, precision dosing, deprescribing, missing-data search, alternatives, and new-drug decomposition.
-- A React workbench for reset/step interaction, clickable candidates, task/environment selection, reward bars, action history, and event traces.
-- A TRL SFT warm start and GRPO loop using environment-backed rewards.
-- Post-save inference checks from exported artifacts.
-- Baseline comparison and plots committed under `docs/results/`.
-
-The current local compliance run uses a tiny model so the full pipeline can be verified quickly. For the final pitch, rerun the same notebook on GPU with the Qwen model and Unsloth enabled, then replace the result artifacts with the stronger run.
-
-Key result to show: the current benchmark report improves average reward over the no-change baseline while preserving legality. The reward design is intentionally decomposed into multiple independent checks to reduce reward hacking and make failures visible.
diff --git a/docs/mathematics.md b/docs/mathematics.md
new file mode 100644
index 0000000000000000000000000000000000000000..3c8f57d5bf70ccbfc604030f19034a124e15f22a
--- /dev/null
+++ b/docs/mathematics.md
@@ -0,0 +1,1045 @@
+# Mathematics Behind PolyGuard Agents
+
+This note is the expert-facing mathematical map of PolyGuard: what the
+agents optimize, how actions are constrained, how reward is computed, and why
+the training stack uses SFT plus environment-verified GRPO instead of an
+unconstrained chat policy. It expands the shorter `docs/math.md`.
+
+Source-of-truth implementation files:
+
+- `app/env/env_core.py`: reset, observation, step, traces, OpenEnv state.
+- `app/models/policy/candidate_builder.py`: constrained candidate set.
+- `app/env/verifier.py`: hard legality and safety verifier.
+- `app/env/transition.py`: state transition dynamics.
+- `app/env/reward_router.py`: reward decomposition and aggregation.
+- `app/env/reward_scaling.py`: strict reward normalization.
+- `app/env/anti_cheat.py`: reward-hacking guards.
+- `app/agents/orchestrator.py`: multi-agent policy stack.
+- `app/models/baselines/contextual_bandit_policy.py`: LinUCB/Thompson co-policy.
+- `app/training/sft_trl.py`: supervised warm start.
+- `app/training/grpo_trl.py`: TRL GRPO with environment reward verification.
+
+## 1. Problem Formulation
+
+PolyGuard is best read as a finite-horizon constrained POMDP:
+
+```text
+M = (S, A, O, T, R, H, C)
+```
+
+where:
+
+- `S` is the latent patient/regimen state.
+- `A` is the set of medication actions expressible by `PolyGuardAction`.
+- `O` is the observation emitted to the agent.
+- `T(s' | s, a)` is the simulator transition.
+- `R(s, a, s')` is the verifier-backed reward.
+- `H` is the episode horizon, derived from sub-environment difficulty.
+- `C(s, a)` is the hard clinical/safety constraint predicate.
+
+The policy objective is:
+
+```text
+maximize_pi   E_pi [ sum_{t=0}^{H-1} R(s_t, a_t, s_{t+1}) ]
+subject to    C(s_t, a_t) = 1 whenever possible
+```
+
+There is no explicit discount factor in the runtime. Time preference enters
+through the finite horizon and the efficiency reward:
+
+```text
+efficiency_t = q(1 - step_count_t / (max_steps + 1))
+```
+
+where `q` is PolyGuard's reward clamp and quantizer:
+
+```text
+q(x) = round(clip(x, 0.001, 0.999), 3)
+```
+
+Why this framing: medication optimization is partially observable, long
+horizon, and safety constrained. A free-form language model objective would
+allow plausible but illegal actions. PolyGuard instead learns inside a small
+legal action set with explicit reward columns, so failures remain auditable.
+
+## 2. State, Observation, And Partial Observability
+
+The latent state `s_t` is represented by `PolyGuardState`:
+
+```text
+s_t = (
+  patient profile,
+  active decision mode,
+  step count,
+  max steps,
+  risk summary,
+  burden score,
+  precision dosing flags,
+  unresolved conflicts,
+  action history,
+  cumulative reward,
+  done flag
+)
+```
+
+At reset, the initial risk summary is:
+
+```text
+polypharmacy_count = number_of_medications
+burden_score       = min(1, number_of_medications / 12)
+severe_pair_count  = number_of_contraindicated_pairs
+```
+
+The agent does not receive all latent simulator internals. The observation
+`o_t = O(s_t)` exposes a controlled view:
+
+```text
+o_t = (
+  patient summary,
+  medication table,
+  comorbidities,
+  organ function and labs/vitals,
+  graph safety summary,
+  burden summary,
+  precision dosing flags,
+  unresolved conflicts,
+  candidate action set,
+  step budget,
+  action history,
+  warnings,
+  abstention indicators
+)
+```
+
+Uncertainty is a simple observable proxy:
+
+```text
+missing = I[egfr missing] + I[ast missing] + I[alt missing]
+base_uncertainty = missing / 3
+conflict_penalty = min(0.3, 0.1 * number_of_unresolved_conflicts)
+u_t = clip(base_uncertainty + conflict_penalty, 0, 1)
+```
+
+The environment recommends abstention/review when:
+
+```text
+u_t > 0.65
+```
+
+The supervisor uses a stricter routing threshold:
+
+```text
+mode_t = REVIEW    if u_t > 0.72
+mode_t = DOSE_OPT  if sub_environment = PRECISION_DOSING or dosing is active
+mode_t = REGIMEN_OPT otherwise
+```
+
+Why this choice: the observation keeps the agent honest. Missing labs and
+conflicts are not hidden from reward, but they are presented as uncertainty
+signals that should change policy behavior rather than invite overconfident
+recommendations.
+
+## 3. Constrained Action Model
+
+The runtime action is a strict `PolyGuardAction`:
+
+```text
+a_t = (
+  mode,
+  action_type,
+  target_drug,
+  replacement_drug,
+  dose_bucket,
+  taper_days,
+  monitoring_plan,
+  evidence_query,
+  new_drug_name,
+  candidate_components,
+  candidate_id,
+  confidence,
+  rationale_brief
+)
+```
+
+The environment first builds a candidate set:
+
+```text
+C_t = B(s_t)
+```
+
+where `B` is `build_candidates`. Candidate generation is rule-seeded and
+bounded:
+
+```text
+3 <= |C_t| <= 10
+```
+
+Each candidate carries proxy features:
+
+```text
+c = (
+  candidate_id,
+  mode,
+  action_type,
+  estimated_safety_delta,
+  burden_delta,
+  disease_stability_estimate,
+  uncertainty_score,
+  legality_precheck,
+  rationale_tags
+)
+```
+
+The legal candidate set is:
+
+```text
+L_t = { c in C_t : verifier(s_t, c).legal = true }
+```
+
+Policy selection is candidate selection, not arbitrary action synthesis:
+
+```text
+a_t = to_action(c_t),       c_t in C_t
+```
+
+The action type space is intentionally small:
+
+```text
+KEEP_REGIMEN
+STOP_DRUG
+SUBSTITUTE_WITHIN_CLASS
+RECOMMEND_ALTERNATIVE
+REDUCE_DOSE_BUCKET
+INCREASE_DOSE_BUCKET
+TAPER_INITIATE
+TAPER_CONTINUE
+DOSE_HOLD
+ORDER_MONITORING_AND_WAIT
+FETCH_EXTERNAL_EVIDENCE
+DECOMPOSE_NEW_DRUG
+REQUEST_SPECIALIST_REVIEW
+REQUEST_PHARMACIST_REVIEW
+```
+
+Why this choice: most safety failures in clinical LLM tasks come from an
+unbounded output space. PolyGuard makes the LLM solve ranking and explanation
+inside a constrained action manifold, then lets the verifier and transition
+system enforce semantics.
+
+## 4. Hard Legality Constraints
+
+The verifier computes:
+
+```text
+V(s_t, a_t) = (legal, violations, severity, fallback)
+```
+
+Examples of hard constraints:
+
+- The target drug must exist in the current regimen when required.
+- Substitutions and alternatives must be drawn from allowed substitution rules.
+- Evidence-fetch URLs must be allowlisted.
+- New-drug decomposition must include a new drug and components.
+- Abrupt stopping is illegal when taper rules require tapering.
+- Renal/hepatic unsafe dose escalation is illegal.
+- Duplicate therapy and contraindicated substitutions are illegal.
+- Monitoring/hold actions require a monitoring plan.
+- Destabilizing deprescribing patterns are illegal.
+
+The environment step uses a two-gate transition:
+
+```text
+if V(s_t, a_t).legal and not anti_cheat(s_t, a_t):
+    s_{t+1} = T(s_t, a_t)
+else:
+    s_{t+1} = rollback_state_with_failed_action_record(s_t, a_t)
+```
+
+Even blocked actions advance the step count and become visible in
+`action_history`, `failure_reasons`, `invalid_action_count`, and trace logs.
+
+Why this choice: legality is a constraint, not a soft preference. The reward
+still exposes illegal behavior numerically, but illegal behavior is prevented
+from mutating patient state.
+
+## 5. Transition Dynamics
+
+The transition function mutates the regimen and derived risk state. Important
+deterministic transitions include:
+
+```text
+STOP_DRUG:
+  medications' = medications without target_drug
+
+SUBSTITUTE_WITHIN_CLASS or RECOMMEND_ALTERNATIVE:
+  target_drug' = replacement_drug
+
+REDUCE_DOSE_BUCKET / INCREASE_DOSE_BUCKET:
+  dose_bucket moves one level over [LOW, MEDIUM, HIGH]
+
+DOSE_HOLD:
+  dose_bucket' = HOLD
+
+ORDER_MONITORING_AND_WAIT:
+  optional hold + unresolved review conflicts cleared
+
+REQUEST_*_REVIEW:
+  active_mode' = REVIEW
+  unresolved_conflicts append review marker
+
+FETCH_EXTERNAL_EVIDENCE:
+  external mention/component counts update
+  missing-data conflicts can be cleared
+
+DECOMPOSE_NEW_DRUG:
+  component count and unknown-risk flags update
+```
+
+After any applied transition, burden is recomputed with dose weights:
+
+```text
+w(LOW)    = 0.70
+w(MEDIUM) = 1.00
+w(HIGH)   = 1.25
+w(HOLD)   = 0.45
+w(NA)     = 1.00
+
+burden_{t+1} = clip( sum_{m in medications_{t+1}} w(dose_bucket_m) / 12, 0, 1 )
+```
+
+The severe-pair count is recomputed from known contraindicated pairs:
+
+```text
+severe_pair_count_{t+1} =
+  |{(i, j): i < j and contraindicated(drug_i, drug_j)}|
+```
+
+Why this choice: transitions are intentionally deterministic and inspectable.
+That makes reward debugging and training reproducibility easier than a hidden
+black-box clinical simulator.
+
+## 6. Multi-Agent Factorization
+
+PolyGuard's "agents" are a policy factorization, not independent RL learners
+with separate private rewards. Each module emits features, candidates, gates,
+or explanations consumed by the next stage:
+
+```text
+MedRec -> Evidence -> GraphSafety -> Dosing -> Candidate
+       -> Supervisor -> Planner -> Critic -> Env -> Explainer
+```
+
+The orchestrated policy can be written:
+
+```text
+pi(a | o) =
+  pi_critic(
+    pi_planner(
+      top_k_bandit(
+        pi_supervisor(
+          features_medrec,evidence,graph,dosing,candidates
+        )
+      )
+    )
+  )
+```
+
+More concretely:
+
+```text
+z_medrec  = f_medrec(s_t)
+z_evid    = f_evidence(s_t)
+z_graph   = f_graph(s_t)
+z_dose    = f_dosing(s_t)
+C_t       = f_candidate(s_t)
+m_t       = f_supervisor(s_t, z_dose)
+K_t       = f_bandit(C_t, m_t)
+a_hat_t   = f_planner(K_t, m_t, provider_prompt)
+a_t       = f_critic(s_t, a_hat_t)
+```
+
+Coordination modes change the graph behavior:
+
+- `sequential_pipeline`: one pass through the stack.
+- `supervisor_routed`: filters candidates by macro mode.
+- `replan_on_veto`: replans into review mode when the critic rejects.
+- `lightweight_debate`: allows a small debate/replan signal around vetoes.
+
+Why this choice: the decomposition creates audit points. Experts can inspect
+whether a failure came from candidate construction, uncertainty routing,
+planner choice, critic behavior, transition logic, or reward shaping.
+
+## 7. Graph Safety Mathematics
+
+The graph safety module summarizes regimen risk. In the no-artifact fallback,
+the encoder maps a regimen to a 24-dimensional vector:
+
+```text
+g = encode_regimen(drugs) in R^24
+```
+
+The vector includes hashed drug identity features, drug-class counts,
+side-effect tag load, medication count, contraindicated-pair count, and flags
+for sedative, anticoagulant, and glucose-lowering classes.
+
+Pairwise DDI severity is:
+
+```text
+score_pair(a, b) =
+  0.95 if contraindicated(a, b)
+  0.15 otherwise
+```
+
+Fallback severe-alert probability is:
+
+```text
+p_severe = min(0.99, 0.10 + 0.30 * number_of_risky_pairs)
+```
+
+Side-effect probabilities normalize ontology tag counts:
+
+```text
+p(tag) = count(tag across regimen) / sum_tag count(tag)
+```
+
+If a trained graph artifact exists, learned heads may override the fallback
+severe-alert and side-effect estimates.
+
+Why this choice: the graph model supplies dense safety features while the
+verifier still enforces hard contraindication rules. Learned risk can help
+ranking, but it is not trusted as the only safety barrier.
+
+## 8. Dosing Mathematics
+
+Dose-sensitive drugs are currently selected from sensitive classes:
+
+```text
+{anticoagulant, sedative, glucose_lowering}
+```
+
+Dose features include interaction load and organ stress:
+
+```text
+interaction_load = min(1, number_of_medications / 12)
+
+organ_stress = min(
+  1,
+  max(0, (35 - egfr) / 35)
+  + max(0, (ast - 80) / 80)
+  + max(0, (alt - 80) / 80)
+)
+```
+
+The surrogate PK/PD state is:
+
+```text
+x = (
+  effect_level,
+  toxicity_level,
+  underdose_risk,
+  organ_stress,
+  interaction_load
+)
+```
+
+Initial proxies:
+
+```text
+effect_0    = min(1, 0.35 + 0.45 * adherence)
+toxicity_0  = min(1, 0.08 + 0.40 * organ_stress)
+underdose_0 = max(0, 1 - effect_0)
+```
+
+For a dose change `d`:
+
+```text
+effective_delta = d * (1 - min(0.6, 0.4 * organ_stress))
+
+effect' =
+  clip(effect + 0.28 * effective_delta - 0.05 * interaction_load, 0, 1)
+
+toxicity_gain =
+  max(0, d) * (0.35 + 0.25 * organ_stress + 0.20 * interaction_load)
+
+toxicity' =
+  clip(0.85 * toxicity + toxicity_gain, 0, 1)
+
+underdose' =
+  clip(1 - effect' + 0.15 * max(0, -d), 0, 1)
+```
+
+Dosing quality proxies:
+
+```text
+target_attainment = clip(1 - |effect_level - 0.62|, 0, 1)
+toxicity_proxy    = min(1, toxicity + 0.20 * organ_stress + 0.12 * interaction_load)
+underdose_proxy   = min(1, underdose_risk + max(0, 0.30 - effect_level))
+measurement_need  = max(toxicity_proxy, underdose_proxy)
+```
+
+The runtime reward currently uses a coarse dose-mode reward:
+
+```text
+dosing_quality_score = 0.75 if action.mode = DOSE_OPT else 0.50
+```
+
+The detailed PK/PD analysis is still useful because it influences the agent
+stack and evaluation, even when the scalar reward channel remains deliberately
+simple.
+
+Why this choice: dose optimization needs its own state features, but dense
+dosing reward must not overpower legality and safety in early RL training.
+
+## 9. Contextual Bandit Co-Policy
+
+The bandit proposes a top-k shortlist before the planner finalizes an action.
+Each candidate becomes an 8-dimensional feature vector:
+
+```text
+x(c) = [
+  1,
+  I[legality_precheck],
+  estimated_safety_delta,
+  burden_delta,
+  disease_stability_estimate,
+  1 - uncertainty_score,
+  I[mode = DOSE_OPT],
+  I[mode = REVIEW]
+]
+```
+
+An arm is keyed by macro mode and action type:
+
+```text
+arm(c) = mode(c) || ":" || action_type(c)
+```
+
+### LinUCB
+
+For each arm `a`, PolyGuard maintains:
+
+```text
+A_a = I + sum x x^T
+b_a = sum r x
+theta_a = A_a^{-1} b_a
+```
+
+The score is:
+
+```text
+score_a(x) =
+  theta_a^T x + alpha * sqrt(x^T A_a^{-1} x)
+```
+
+where the default `alpha` is read from `POLYGUARD_BANDIT_ALPHA`, defaulting to
+`0.55`.
+
+### Thompson Sampling Variant
+
+The alternate score is:
+
+```text
+score_a(x) = theta_a^T x + Normal(0, alpha)
+```
+
+The absolute sampled noise is logged as the exploration bonus.
+
+### Explicit Exploration
+
+With probability `epsilon`, default `0.1`, the policy swaps the top candidate
+with another candidate in the sorted list:
+
+```text
+if Uniform(0, 1) < epsilon:
+    swap(scored[0], scored[random_non_top_index])
+```
+
+After the environment step:
+
+```text
+A_a <- A_a + x x^T
+b_a <- b_a + r x
+```
+
+Why this choice: the bandit gives a sample-efficient, inspectable exploration
+layer. It can improve candidate ordering without allowing the LLM to leave the
+safe candidate space.
+
+## 10. Planner Policy
+
+The planner receives candidates, a supervisor mode, and optional provider
+context. It filters candidates by mode when possible:
+
+```text
+C_t^m = { c in C_t : mode(c) = m_t }
+```
+
+Then the provider selects a candidate id:
+
+```text
+y_t ~ pi_theta(. | prompt(C_t^m, o_t))
+candidate_id = parse(y_t)
+a_hat_t = to_action(candidate_id)
+```
+
+If an active Transformers/adapter artifact is available, the model generates a
+completion and the runtime extracts a provided `cand_NN`. If no active artifact
+is available or loading fails, the deterministic safety ranker chooses:
+
+```text
+argmax_c (legality_precheck(c), estimated_safety_delta(c), -uncertainty_score(c))
+```
+
+The planner confidence is:
+
+```text
+confidence = max(0.45, 1 - uncertainty_score(candidate))
+```
+
+Why this choice: the learned policy is used where language models are useful:
+contextual judgment over a compact set plus rationale generation. Ranking
+fallbacks keep the product path deterministic and testable when model artifacts
+are unavailable.
+
+## 11. Critic And Safety Veto
+
+The critic re-runs the verifier:
+
+```text
+report = V(s_t, a_hat_t)
+```
+
+If the report is legal:
+
+```text
+a_t = a_hat_t
+```
+
+Otherwise, the critic returns a review-style fallback action. The environment
+still subjects that final action to the same legality and anti-cheat gates, so
+critic output is not privileged over the environment.
+
+Why this choice: the planner is allowed to be probabilistic, but state mutation
+is not. The critic provides an additional audit point before the environment
+transition.
+
+## 12. Anti-Cheat And Reward-Hacking Guards
+
+The anti-cheat detector computes an exploit predicate:
+
+```text
+E(s_t, a_t) in {0, 1}
+```
+
+It fires on:
+
+- repeated candidate loops over the last `MAX_REPEATED_ACTIONS = 3` actions;
+- excessive keep-regimen behavior after at least 3 actions;
+- excessive review behavior after at least 3 actions;
+- malformed candidate ids;
+- candidate ids outside the legal candidate set;
+- repeated no-op retries after failed actions;
+- parser exploit patterns in rationale text;
+- repeated no-op behavior on a hidden high-risk DDI holdout pair.
+
+The configured ratio thresholds are:
+
+```text
+MAX_KEEP_REGIMEN_RATIO = 0.6
+MAX_REVIEW_RATIO       = 0.5
+```
+
+Reward impact:
+
+```text
+anti_cheat_score = 0.001 if E(s_t, a_t) else 0.999
+```
+
+Termination impact:
+
+```text
+done = true, reason = "exploit_detection" if E(s_t, a_t)
+```
+
+Why this choice: RL policies exploit reward functions. PolyGuard makes common
+shortcuts explicit, penalized, and visible in traces instead of treating them
+as silent bad luck.
+
+## 13. Reward Components
+
+PolyGuard computes 13 reward columns. Every component is clamped by `q`.
+
+Let:
+
+```text
+u_t = overall uncertainty
+legal = V(s_t, a_t).legal
+exploit = E(s_t, a_t)
+pre_burden, post_burden = burden before/after step
+pre_pairs, post_pairs = severe-pair count before/after step
+```
+
+Risk-like deltas become rewards through:
+
+```text
+delta_reward(pre, post) = q(0.5 + 0.6 * (pre - post))
+```
+
+So:
+
+```text
+burden_reward = delta_reward(pre_burden, post_burden)
+pair_reward   = delta_reward(pre_pairs, post_pairs)
+
+safety_delta_score =
+  q(0.65 * pair_reward + 0.35 * burden_reward) if legal
+  0.001 otherwise
+```
+
+The current component formulas are:
+
+| Component | Formula |
+| --- | --- |
+| `format_compliance_score` | `0.999` after schema validation |
+| `candidate_alignment_score` | `0.999` if `candidate_id` starts with `cand_`, else `0.001` |
+| `legality_score` | `0.999` if legal, else `0.001` |
+| `safety_delta_score` | weighted pair/burden improvement if legal, else `0.001` |
+| `burden_improvement_score` | `burden_reward` if legal, else `0.001` |
+| `disease_stability_score` | `0.90` except `STOP_DRUG` or `INCREASE_DOSE_BUCKET`, which use `0.58` |
+| `dosing_quality_score` | `0.75` if action mode is `DOSE_OPT`, else `0.50` |
+| `abstention_quality_score` | `0.82` for review action with `u_t > 0.6`, else `0.56` |
+| `efficiency_score` | `q(1 - step_count / (max_steps + 1))` |
+| `process_fidelity_score` | `0.92` if legal, else `0.08` |
+| `explanation_grounding_score` | `0.80` if rationale exists, else `0.20` |
+| `anti_cheat_score` | `0.001` if exploit detected, else `0.999` |
+| `uncertainty_calibration_score` | `q(1 - |confidence - (1 - u_t)|)` |
+
+Sub-environment modifiers:
+
+```text
+WEB_SEARCH_MISSING_DATA:
+  FETCH_EXTERNAL_EVIDENCE:
+    process_fidelity_score >= 0.90
+    explanation_grounding_score >= 0.85
+  otherwise:
+    process_fidelity_score *= 0.75
+
+ALTERNATIVE_SUGGESTION:
+  RECOMMEND_ALTERNATIVE or SUBSTITUTE_WITHIN_CLASS:
+    safety_delta_score >= 0.88
+    burden_improvement_score >= 0.76
+  otherwise:
+    safety_delta_score *= 0.82
+
+NEW_DRUG_DECOMPOSITION:
+  DECOMPOSE_NEW_DRUG with components:
+    explanation_grounding_score >= 0.90
+    process_fidelity_score >= 0.88
+    uncertainty_calibration_score >= 0.82
+  otherwise:
+    explanation_grounding_score *= 0.70
+```
+
+Why this choice: dense reward reduces sparse-credit problems, but the columns
+are semantically separated so experts can detect when total reward improves
+for the wrong reason.
+
+## 14. Primary Reward Channels
+
+The 13 columns roll up into four primary channels:
+
+```text
+safety_legality =
+  avg(
+    legality_score,
+    candidate_alignment_score,
+    anti_cheat_score,
+    uncertainty_calibration_score
+  )
+
+clinical_improvement =
+  avg(
+    safety_delta_score,
+    burden_improvement_score,
+    disease_stability_score
+  )
+
+dosing_quality =
+  avg(
+    dosing_quality_score,
+    abstention_quality_score
+  )
+
+process_integrity =
+  avg(
+    format_compliance_score,
+    efficiency_score,
+    process_fidelity_score,
+    explanation_grounding_score
+  )
+```
+
+Each average is clamped through `q`. These channels are emitted in
+`info.primary_reward_channels`, GRPO logs, reports, plots, and ablation
+summaries.
+
+Why this choice: primary channels make the reward legible to judges and domain
+experts without hiding the lower-level reward columns needed for debugging.
+
+## 15. Total Reward
+
+The scalar environment reward is a weighted average:
+
+```text
+R_env(s_t, a_t, s_{t+1}) =
+  q( sum_i w_i c_i / sum_i w_i )
+```
+
+Current weights sum to 1:
+
+| Component | Weight |
+| --- | ---: |
+| `format_compliance_score` | `0.08` |
+| `candidate_alignment_score` | `0.08` |
+| `legality_score` | `0.12` |
+| `safety_delta_score` | `0.15` |
+| `burden_improvement_score` | `0.08` |
+| `disease_stability_score` | `0.10` |
+| `dosing_quality_score` | `0.08` |
+| `abstention_quality_score` | `0.06` |
+| `efficiency_score` | `0.06` |
+| `process_fidelity_score` | `0.06` |
+| `explanation_grounding_score` | `0.03` |
+| `anti_cheat_score` | `0.06` |
+| `uncertainty_calibration_score` | `0.04` |
+
+Safety-related terms have the largest combined mass:
+
+```text
+legality + safety_delta + burden + disease_stability + anti_cheat
+= 0.12 + 0.15 + 0.08 + 0.10 + 0.06
+= 0.51
+```
+
+That does not include candidate alignment or calibration, which also affect
+safety behavior.
+
+Why this choice: the scalar reward is needed by RL algorithms, but the weights
+make safety and clinical improvement dominate style, speed, and explanation.
+
+## 16. Episode Termination
+
+Termination is deterministic:
+
+```text
+done = true if:
+  exploit_detected
+  or step_count >= max_steps
+  or at least 3 recent invalid actions
+  or severe_pair_count >= 2 after enough steps
+  or burden_score > 0.92 after step 2
+  or burden_score < 0.25 and no unresolved conflicts
+  or wall-clock/step timeout
+```
+
+The main success-like terminal condition is:
+
+```text
+safe_resolution:
+  burden_score < 0.25 and unresolved_conflicts = empty
+```
+
+Why this choice: the environment needs both positive endings and explicit
+failure endings. Otherwise an RL policy could learn to loop, delay, or avoid
+difficult decisions.
+
+## 17. SFT Warm Start
+
+SFT trains the model to emit the target candidate id for curated examples. A
+record is serialized as:
+
+```text
+{
+  instruction: "Select the safest legal medication action candidate_id.",
+  medications: ...,
+  candidates: ...,
+  answer: target_candidate_id
+}
+```
+
+The mathematical objective is standard token-level negative log likelihood:
+
+```text
+L_SFT(theta) =
+  - sum_{(x, y*) in D} log pi_theta(y* | x)
+```
+
+where `y*` includes the target candidate id.
+
+Why this choice: SFT gives the policy the output format and obvious clinical
+priors before RL. Without SFT, GRPO would spend too much budget learning to
+name a valid candidate id.
+
+## 18. GRPO With Environment-Backed Reward
+
+GRPO prompts are built from patient/candidate records. For each prompt, the
+model emits one or more completions containing a candidate id:
+
+```text
+y_i ~ pi_theta(. | x),   i = 1..G
+```
+
+The environment verifier parses each completion, resets a deterministic
+PolyGuard environment using the recorded seed/difficulty/sub-environment, maps
+the candidate id to an action, takes one environment step, and returns a reward.
+
+The training reward used by the GRPO reward function is:
+
+```text
+legal_bonus = 0.95 if action is legal else 0.05
+
+R_GRPO =
+  q(0.80 * R_env + 0.20 * legal_bonus)
+```
+
+The reward function logs:
+
+```text
+generated_candidate_id
+selected_candidate_id
+legal
+reward
+reward_breakdown
+primary_reward_channels
+termination_reason
+```
+
+Conceptually, group-relative policy optimization forms a within-prompt
+advantage:
+
+```text
+A_i = (R_i - mean_j R_j) / (std_j R_j + epsilon)
+```
+
+and updates the policy with a clipped policy-ratio objective:
+
+```text
+rho_i(theta) = pi_theta(y_i | x) / pi_old(y_i | x)
+
+J_GRPO(theta) =
+  E[ (1/G) * sum_i min(
+        rho_i(theta) * A_i,
+        clip(rho_i(theta), 1 - eps, 1 + eps) * A_i
+      )
+      - beta * KL(pi_theta || pi_ref)
+    ]
+```
+
+The exact optimizer mechanics are owned by TRL's `GRPOTrainer`; PolyGuard's
+critical contribution is the reward function that executes verifier-backed
+environment transitions instead of scoring completions with a text-only judge.
+
+Why this choice: GRPO avoids training a separate value model, works naturally
+with multiple completions per prompt, and lets the environment supply rewards
+that are grounded in legality, transition effects, and anti-cheat checks.
+
+## 19. Evaluation Metrics
+
+Rollout metrics are sample means over environment steps or episodes:
+
+```text
+avg_reward      = mean_t R_t
+legality_rate   = mean_t I[action_t legal]
+success_rate    = mean_episode I[termination_reason = safe_resolution]
+abstention_rate = mean_t I[action_type starts with REQUEST_]
+timeout_rate    = timeout_count / number_of_rewards
+```
+
+Reward components and primary channels are averaged column-wise:
+
+```text
+avg_component_k = mean_t c_{t,k}
+avg_channel_j   = mean_t channel_{t,j}
+```
+
+Policy-stack ablations compare:
+
+```text
+bandit-only
+llm-only
+llm+bandit
+```
+
+Baselines include:
+
+```text
+no-change:
+  always KEEP_REGIMEN
+
+rules-only:
+  argmax_c (legality_precheck, estimated_safety_delta)
+
+greedy:
+  argmax_c (estimated_safety_delta, burden_delta)
+```
+
+Why this choice: average reward alone is not trustworthy. PolyGuard also
+reports legality, success, process fidelity, anti-cheat counts, invalid
+actions, timeouts, and failure visibility.
+
+## 20. What Experts Should Watch
+
+High-quality behavior should show:
+
+- High legality without collapsing into review-only actions.
+- Lower severe-pair and burden metrics over transitions.
+- Good uncertainty calibration: confidence near `1 - uncertainty`.
+- High process fidelity in special sub-environments.
+- Low exploit detection and low invalid-action counts.
+- GRPO reward improvements that are visible in primary channels, not just in
+  one easy component.
+
+Potential failure signatures:
+
+- Reward rises while `safety_legality` falls.
+- `abstention_quality_score` rises with review abuse.
+- Candidate alignment is high but `candidate_not_in_legal_set` appears in
+  anti-cheat logs.
+- Dosing mode is selected often without better target/toxicity metrics.
+- The policy exploits deterministic first-candidate fallbacks instead of
+  actually emitting candidate ids.
+
+The intended expert reading is therefore not "the scalar reward went up".
+The intended reading is:
+
+```text
+policy improved iff
+  scalar reward improves
+  and safety_legality does not regress
+  and clinical_improvement improves or stays justified
+  and process_integrity remains high
+  and anti-cheat/failure logs remain acceptable
+```
+
+## 21. Design Summary
+
+PolyGuard chooses:
+
+- A constrained POMDP/CMDP framing because free-form medication actions are
+  unsafe and hard to evaluate.
+- A hierarchical multi-agent policy because clinical medication decisions have
+  separable routing, candidate generation, critique, and explanation stages.
+- A contextual bandit shortlist because it is transparent, online-updateable,
+  and sample efficient.
+- SFT first because candidate-id format and clinical priors should not be
+  discovered from sparse RL reward.
+- GRPO next because group-relative rewards fit verifier-backed completion
+  scoring without a separate critic/value model.
+- Decomposed reward because safety-critical RL must be debuggable by reward
+  channel, not only by total return.
+- Hard verifier gates because some actions should be impossible to apply even
+  when a learned policy assigns them high probability.
+
+This is a research environment and simulator. The mathematics describes how
+PolyGuard trains and evaluates agents inside this controlled OpenEnv setting;
+it is not a clinical decision rule for patient care.
diff --git a/docs/participant_guide_traceability.md b/docs/participant_guide_traceability.md
index 4d081a64e373f02cdbb36fa5cee26f9eaef54552..9462263aa07e45d684be790ed4f7c8533bc9f660 100644
--- a/docs/participant_guide_traceability.md
+++ b/docs/participant_guide_traceability.md
@@ -27,7 +27,7 @@ This audit maps the hackathon guide, FAQ, and judging criteria to concrete PolyG
 - Current tracked reports include a non-fallback SFT run, a top-level non-fallback GRPO run, post-save inference, improvement reports, anti-hacking reports, and a 3-model SFT-baseline sweep.
 - The optional private remote artifact pull checks reward bounds, reward precision, missing charts, GRPO adapter paths, and the anti-hacking/overfit report. Do not describe private artifacts as public judge-facing links unless mirrored.
 - The strict submission gate passes as of April 26, 2026, but it validates link presence/shape, not live HTTP status.
-- The live public Space target is `TheJackBright/polyguard-openenv`; `/health` returned `{"status":"healthy"}` during this audit.
+- The live public Space target is `TheJackBright/polyguard-openenv-workbench`; `/health` is validated through the deployed workbench runtime.
 
 ## Remaining Human-Owned External Step
 
diff --git a/docs/results/README.md b/docs/results/README.md
index 1c428ebc914407d49b5fcd2733e5b29e86c93ee8..09bd5a05dc6aac28a1e3132588fc272412b28151 100644
--- a/docs/results/README.md
+++ b/docs/results/README.md
@@ -1,24 +1,38 @@
 # Result Artifacts
 
-These tracked files mirror the latest local smoke/evaluation artifacts so the README can show stable evidence even though `outputs/` and `checkpoints/` are intentionally git-ignored.
+These tracked files mirror local smoke/evaluation artifacts and the final curated submission evidence even though `outputs/` and `checkpoints/` are intentionally git-ignored.
+
+The shared environment files, training scripts/notebooks, and training logs are
+indexed in `../submission_artifacts.md`.
 
 Current status:
 
 - OpenEnv structure/runtime validation passes locally.
 - Test suite passes locally.
 - Frontend production build passes locally.
-- SFT and GRPO artifacts in this folder are non-fallback TRL Transformers evidence from a tiny local compliance run.
-- `postsave_inference.json` loads the merged artifact rather than the fallback policy.
-- `improvement_report.json` shows positive average-reward improvement against the no-change baseline.
+- `final_submission_evidence/` is the current evidence bundle with curated charts, action traces, final reports, and the public HF artifact Space manifest.
+- `final_submission_evidence/charts/curated/` is the visually reviewed, non-redundant viewing layer used by the root README.
+- `final_submission_evidence/charts/all/` keeps the full chart pool.
+- `final_submission_evidence/charts/stale_superseded/` documents older 0.5B/1.5B-only charts and smoke-run mirrors that are retained for auditability.
+- Final artifact Space: https://huggingface.co/spaces/adithya9903/polyguard-openenv-final-artifacts
+- Qwen 3B SFT/GRPO adapter files and checkpoint tree are available through the final artifact Space; Qwen 0.5B and 1.5B currently have reports/history/post-save SFT evidence but no adapter directories in the checked mirrors.
+- `postsave_inference.json` loads the merged artifact rather than the fallback policy for the older smoke path.
+- `improvement_report.json` shows positive average-reward improvement against the no-change baseline for the older smoke path.
 - `hf_space_verification.json` records a live Hugging Face Space validation pass.
-- `active_model_manifest.json` records the currently activated local product model. As of April 26, 2026 this points at the local Qwen 0.5B smoke artifact while the full remote Qwen sweep continues.
 
-For a stronger final pitch, replace these artifacts after a larger Colab/HF GPU run:
+Best current evidence:
+
+- `final_submission_evidence/charts/curated/training/sft_loss_curves_all_models.png`
+- `final_submission_evidence/charts/curated/training/qwen_3b_grpo_reward_curve.png`
+- `final_submission_evidence/charts/curated/training/qwen_3b_grpo_loss_curve.png`
+- `final_submission_evidence/charts/curated/model_comparison/sft_vs_grpo_reward_by_model.png`
+- `final_submission_evidence/charts/curated/model_comparison/qwen_model_grpo_reward.png`
+- `final_submission_evidence/charts/curated/product_over_basic_llm/basic_llm_vs_full_pipeline_reward.png`
+- `final_submission_evidence/charts/curated/product_over_basic_llm/reward_delta_by_seed.png`
+- `final_submission_evidence/charts/curated/reward_and_safety/reward_component_bars.png`
+- `final_submission_evidence/charts/curated/inference/inference_validity_reward.png`
+- `final_submission_evidence/reports/basic_llm_vs_polyguard_report.json`
+- `final_submission_evidence/reports/action_traces.jsonl`
+- `final_submission_evidence/manifest.json`
 
-- `sft_trl_run.json`
-- `grpo_trl_run.json`
-- `postsave_inference.json`
-- `improvement_report.json`
-- all plot PNGs
-- `hf_space_verification.json`
-- `active_model_manifest.json`
+Older smoke artifacts remain here for auditability and regression checks. The root compatibility charts such as `avg_reward.png` and `policy_stack_avg_reward.png` are intentionally left in place because local gates still check them.
diff --git a/docs/results/anti_cheat_failure_rates.png b/docs/results/anti_cheat_failure_rates.png
index 9ee2415b64aa6d1e4357754bd432cfc43dbf5091..d427bcf89e3f4752273406d156b28047a6018b1d 100644
Binary files a/docs/results/anti_cheat_failure_rates.png and b/docs/results/anti_cheat_failure_rates.png differ
diff --git a/docs/results/final_submission_evidence/README.md b/docs/results/final_submission_evidence/README.md
new file mode 100644
index 0000000000000000000000000000000000000000..f6075e2205232932caa03f97c6dd35b911e8b528
--- /dev/null
+++ b/docs/results/final_submission_evidence/README.md
@@ -0,0 +1,77 @@
+# PolyGuard Final Submission Evidence
+
+This folder is the current curated evidence set for the final submission. It
+replaces the earlier Qwen 0.5B/1.5B-only view with a single location for the
+best charts, reports, action traces, and model-artifact availability.
+
+## Hugging Face Artifact Space
+
+- Space: [adithya9903/polyguard-openenv-final-artifacts](https://huggingface.co/spaces/adithya9903/polyguard-openenv-final-artifacts)
+- The root repository README is the primary public narrative. This folder is the
+  supporting local mirror for charts, reports, traces, and artifact availability.
+
+## Shared Environment, Logs, And Scripts
+
+The full index for shared environment files, training scripts, notebooks, and
+training logs is [Submission Artifact Index](../../submission_artifacts.md).
+
+- Environment/runtime: `openenv.yaml`, `pyproject.toml`, `uv.lock`, `requirements*.txt`, `Dockerfile*`, `app/env/`, `server/app.py`, and `app/hf_space/Dockerfile`.
+- Training scripts/notebooks: `PolyGuard_SFT_GRPO_One_Run_Runner.ipynb`, `notebooks/09_training_loop.ipynb`, `scripts/train_sft_trl.py`, `scripts/train_grpo_trl.py`, `scripts/deploy_training_space.py`, and `app/hf_space/training_runner.py`.
+- Training logs/results: this folder's `reports/`, `docs/results/sweeps/`, and `docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/`.
+
+## Artifact Availability
+
+| Model | SFT adapter | GRPO adapter | Checkpoints | Reports | Status |
+| --- | --- | --- | --- | --- | --- |
+| Qwen 0.5B | missing | missing | missing | yes | reports_only_or_partial |
+| Qwen 1.5B | missing | missing | missing | yes | reports_only_or_partial |
+| Qwen 3B | yes | yes | yes | yes | complete |
+
+Qwen 0.5B and 1.5B currently have SFT histories/reports and post-save SFT
+evidence in this repository, but no downloadable SFT/GRPO adapter directories
+were present in the local checkout or authenticated artifact repos at packaging
+time. Qwen 3B has both SFT and GRPO adapters, checkpoint metadata/intermediate
+checkpoints, GRPO history, post-save GRPO inference, and policy ablation
+evidence.
+
+## Chart Organization
+
+- `charts/curated/` is the visually reviewed, non-redundant submission view.
+- `charts/all/` is the full chart pool, including individual run curves and diagnostics.
+- `charts/frontpage/` is kept as the earlier compact compatibility set.
+- `charts/stale_superseded/` documents older 0.5B/1.5B-only charts and smoke-run mirrors.
+
+Recommended README charts:
+
+- `charts/curated/training/sft_loss_curves_all_models.png`
+- `charts/curated/training/qwen_3b_grpo_reward_curve.png`
+- `charts/curated/training/qwen_3b_grpo_loss_curve.png`
+- `charts/curated/model_comparison/sft_vs_grpo_reward_by_model.png`
+- `charts/curated/model_comparison/qwen_model_grpo_reward.png`
+- `charts/curated/product_over_basic_llm/basic_llm_vs_full_pipeline_reward.png`
+- `charts/curated/product_over_basic_llm/reward_delta_by_seed.png`
+- `charts/curated/reward_and_safety/reward_component_bars.png`
+- `charts/curated/inference/inference_validity_reward.png`
+
+## Improvement Evidence
+
+- Basic LLM proxy vs full PolyGuard pipeline reward delta:
+  `0.043` average reward.
+- Full pipeline legality rate: `1.0`.
+- Basic LLM failure/exploit rate: `0.25`.
+- Full pipeline failure/exploit rate: `0.0`.
+
+Reward values in the tracked API/reports remain numeric and clamped to
+`[0.001, 0.999]` at three decimal precision.
+
+## Visual Review Notes
+
+The README uses the clearest training, comparison, and product-lift charts. A
+few diagnostics are intentionally kept out of the top-level README: the
+train-vs-holdout gap plot is effectively zero-gap/blank, the anti-cheat chart
+is audit-oriented, and policy-ablation reward is supplemental because the
+product-over-basic-LLM charts communicate the improvement more directly.
+
+See `charts/curated/README.md` for the full curated index and
+`charts/stale_superseded/README.md` for superseded 0.5B/1.5B-only charts and
+smoke mirrors.
diff --git a/docs/results/final_submission_evidence/charts/all/anti_cheat_failure_rates.png b/docs/results/final_submission_evidence/charts/all/anti_cheat_failure_rates.png
new file mode 100644
index 0000000000000000000000000000000000000000..d427bcf89e3f4752273406d156b28047a6018b1d
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/anti_cheat_failure_rates.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/avg_reward.png b/docs/results/final_submission_evidence/charts/all/avg_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..edb2fa8c25074d88c90bce5c243af90dcb28e1c6
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/avg_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/basic_llm_vs_full_pipeline_latency.png b/docs/results/final_submission_evidence/charts/all/basic_llm_vs_full_pipeline_latency.png
new file mode 100644
index 0000000000000000000000000000000000000000..02e20931b6ef796b3f1a0a9818ca0035bcb7b8a3
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/basic_llm_vs_full_pipeline_latency.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/basic_llm_vs_full_pipeline_legality.png b/docs/results/final_submission_evidence/charts/all/basic_llm_vs_full_pipeline_legality.png
new file mode 100644
index 0000000000000000000000000000000000000000..180ef4bb099a8b7c254db02e1281cd8e308bf058
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/basic_llm_vs_full_pipeline_legality.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/basic_llm_vs_full_pipeline_reward.png b/docs/results/final_submission_evidence/charts/all/basic_llm_vs_full_pipeline_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..630724370ea5b0c19b60ae41173f4c835d37accb
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/basic_llm_vs_full_pipeline_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/basic_llm_vs_full_pipeline_reward_delta_by_seed.png b/docs/results/final_submission_evidence/charts/all/basic_llm_vs_full_pipeline_reward_delta_by_seed.png
new file mode 100644
index 0000000000000000000000000000000000000000..636dcbb7a4d53f984f1cf1ef549bf581e6792604
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/basic_llm_vs_full_pipeline_reward_delta_by_seed.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/grpo_reward_curves.png b/docs/results/final_submission_evidence/charts/all/grpo_reward_curves.png
new file mode 100644
index 0000000000000000000000000000000000000000..e65d51f9fa5b56301ea2a14915aaf2b240f1e5ea
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/grpo_reward_curves.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/inference_latency_validity.png b/docs/results/final_submission_evidence/charts/all/inference_latency_validity.png
new file mode 100644
index 0000000000000000000000000000000000000000..1037053ea236e314bff051771b9a686a294aa9a4
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/inference_latency_validity.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/inference_validity_reward.png b/docs/results/final_submission_evidence/charts/all/inference_validity_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..e8dce9f4126e6e140650f1b0f29ad45975c93bc4
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/inference_validity_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/legality_rate.png b/docs/results/final_submission_evidence/charts/all/legality_rate.png
new file mode 100644
index 0000000000000000000000000000000000000000..b4c1e418b0262902ad1c9ad4818f4d9b22a152d0
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/legality_rate.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/policy_ablation_avg_reward.png b/docs/results/final_submission_evidence/charts/all/policy_ablation_avg_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..4baa16a56f2615342fadaaf8b08b3b6247f9824f
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/policy_ablation_avg_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/policy_ablation_exploit_detection.png b/docs/results/final_submission_evidence/charts/all/policy_ablation_exploit_detection.png
new file mode 100644
index 0000000000000000000000000000000000000000..9cd4e59749283b799fd201f4891e317e5114bffe
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/policy_ablation_exploit_detection.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/policy_ablation_legality.png b/docs/results/final_submission_evidence/charts/all/policy_ablation_legality.png
new file mode 100644
index 0000000000000000000000000000000000000000..0d394038c07f85a7d92077d553ae570bfba07caf
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/policy_ablation_legality.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/policy_stack_avg_reward.png b/docs/results/final_submission_evidence/charts/all/policy_stack_avg_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..b28dc57ac180e83b38194b17251e3cf3a5a941da
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/policy_stack_avg_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/primary_reward_channel_bars.png b/docs/results/final_submission_evidence/charts/all/primary_reward_channel_bars.png
new file mode 100644
index 0000000000000000000000000000000000000000..2b33f8c40f985870bbf6ad986307cf9988ae229d
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/primary_reward_channel_bars.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen-qwen2-5-3b-instruct_sft_learning_rate.png b/docs/results/final_submission_evidence/charts/all/qwen-qwen2-5-3b-instruct_sft_learning_rate.png
new file mode 100644
index 0000000000000000000000000000000000000000..fd2177cf3dc3a560ce5ecbd35643d74afdfb5e74
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen-qwen2-5-3b-instruct_sft_learning_rate.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen-qwen2-5-3b-instruct_sft_token_accuracy.png b/docs/results/final_submission_evidence/charts/all/qwen-qwen2-5-3b-instruct_sft_token_accuracy.png
new file mode 100644
index 0000000000000000000000000000000000000000..7536c6c7a9bf801667d66b1ef90d596a4babc2a1
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen-qwen2-5-3b-instruct_sft_token_accuracy.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen-qwen2-5-3b-instruct_sft_training_loss.png b/docs/results/final_submission_evidence/charts/all/qwen-qwen2-5-3b-instruct_sft_training_loss.png
new file mode 100644
index 0000000000000000000000000000000000000000..c02c8607fe3391354ab2842bd8a4b915dca9acfa
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen-qwen2-5-3b-instruct_sft_training_loss.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_final_sft_train_loss.png b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_final_sft_train_loss.png
new file mode 100644
index 0000000000000000000000000000000000000000..bb59d81635691028de9facebc81176101aa2c96c
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_final_sft_train_loss.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_postsave_latency.png b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_postsave_latency.png
new file mode 100644
index 0000000000000000000000000000000000000000..e153b1f095989dc4cf90174ea8b134f5d56199c5
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_postsave_latency.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_postsave_reward.png b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_postsave_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..bdf750941a51d0bb5f814bc40c4d38971e77c6a7
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_postsave_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_remote_completed_stage_durations.png b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_remote_completed_stage_durations.png
new file mode 100644
index 0000000000000000000000000000000000000000..acc838c0f6d0a4df5e224e9bbc255bc66bb4a321
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_remote_completed_stage_durations.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_sft_runtime.png b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_sft_runtime.png
new file mode 100644
index 0000000000000000000000000000000000000000..ecdef2a719de99be652196bcb0df57a243ae7cbe
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_1_5b_sft_runtime.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_0_5b_sft_learning_rate.png b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_sft_learning_rate.png
new file mode 100644
index 0000000000000000000000000000000000000000..222b8f99d80c4b446a091c0cdaa298ba6bbde41d
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_sft_learning_rate.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_0_5b_sft_token_accuracy.png b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_sft_token_accuracy.png
new file mode 100644
index 0000000000000000000000000000000000000000..f000cd04d336995480104589dee2d11c19316c5a
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_sft_token_accuracy.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_0_5b_sft_training_loss.png b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_sft_training_loss.png
new file mode 100644
index 0000000000000000000000000000000000000000..b225367050c41c65547905cd4bc2e71f3cf386d2
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_sft_training_loss.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_0_5b_vs_1_5b_sft_loss_comparison.png b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_vs_1_5b_sft_loss_comparison.png
new file mode 100644
index 0000000000000000000000000000000000000000..486c32ae421f42e7c511b810ed0540ad43351e0c
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_vs_1_5b_sft_loss_comparison.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png
new file mode 100644
index 0000000000000000000000000000000000000000..880bf409233e709dd4a37fe94f36935af77afc53
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_1_5b_sft_learning_rate.png b/docs/results/final_submission_evidence/charts/all/qwen_1_5b_sft_learning_rate.png
new file mode 100644
index 0000000000000000000000000000000000000000..86065d55a1123ffbbc66c590400e0876a4dd6625
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_1_5b_sft_learning_rate.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_1_5b_sft_token_accuracy.png b/docs/results/final_submission_evidence/charts/all/qwen_1_5b_sft_token_accuracy.png
new file mode 100644
index 0000000000000000000000000000000000000000..333d48c0b38669090a62004e648ccd3c481d7f2f
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_1_5b_sft_token_accuracy.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_1_5b_sft_training_loss.png b/docs/results/final_submission_evidence/charts/all/qwen_1_5b_sft_training_loss.png
new file mode 100644
index 0000000000000000000000000000000000000000..d82b239d3c372b9ff6e6c38cb3807f2a92da29c2
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_1_5b_sft_training_loss.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_model_grpo_reward.png b/docs/results/final_submission_evidence/charts/all/qwen_model_grpo_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..ba56fd46b8319c7079ee914ec0058e4fe5c78fc9
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_model_grpo_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_model_sft_loss.png b/docs/results/final_submission_evidence/charts/all/qwen_model_sft_loss.png
new file mode 100644
index 0000000000000000000000000000000000000000..1704e1874b29e3940d039859473ab6c6976b910e
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_model_sft_loss.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/qwen_model_sft_reward.png b/docs/results/final_submission_evidence/charts/all/qwen_model_sft_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..c5462417c93e3527d7224d806ef80b153051050a
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/qwen_model_sft_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/reward_component_bars.png b/docs/results/final_submission_evidence/charts/all/reward_component_bars.png
new file mode 100644
index 0000000000000000000000000000000000000000..850ed462c7e58b7ad2f4ab88cae557f95d1b689e
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/reward_component_bars.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/sft_loss_curves.png b/docs/results/final_submission_evidence/charts/all/sft_loss_curves.png
new file mode 100644
index 0000000000000000000000000000000000000000..60710fb94d95eba319e3426b4166a62877fe08cc
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/sft_loss_curves.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/sft_validity_reward.png b/docs/results/final_submission_evidence/charts/all/sft_validity_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..db8560c0d68a0878ab4d91ea1d27ae77276e20ec
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/sft_validity_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/sft_vs_grpo_reward.png b/docs/results/final_submission_evidence/charts/all/sft_vs_grpo_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..0938d1b65b686f5a79f614601f7b434963e79094
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/sft_vs_grpo_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/all/train_holdout_gap.png b/docs/results/final_submission_evidence/charts/all/train_holdout_gap.png
new file mode 100644
index 0000000000000000000000000000000000000000..3fbf53ce81e3f27087a3db7baecdfc37f81a74fc
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/all/train_holdout_gap.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/README.md b/docs/results/final_submission_evidence/charts/curated/README.md
new file mode 100644
index 0000000000000000000000000000000000000000..b3b5ea1aa2c3871d4b7366cbb524653b5963dc8b
--- /dev/null
+++ b/docs/results/final_submission_evidence/charts/curated/README.md
@@ -0,0 +1,62 @@
+# Curated Result Charts
+
+This is the visually reviewed, non-redundant viewing layer for submission. It
+keeps the strongest charts by topic while older 0.5B/1.5B-only and smoke-run
+mirrors remain available under `charts/all/` or the root `docs/results/`
+folder.
+
+Recommended README/frontpage order:
+
+1. `training/sft_loss_curves_all_models.png`
+2. `training/qwen_3b_grpo_reward_curve.png`
+3. `training/qwen_3b_grpo_loss_curve.png`
+4. `model_comparison/sft_vs_grpo_reward_by_model.png`
+5. `model_comparison/qwen_model_sft_reward.png`
+6. `model_comparison/qwen_model_grpo_reward.png`
+7. `product_over_basic_llm/basic_llm_vs_full_pipeline_reward.png`
+8. `product_over_basic_llm/reward_delta_by_seed.png`
+9. `reward_and_safety/reward_component_bars.png`
+10. `inference/inference_validity_reward.png`
+
+Supplemental charts are kept here for transparency but are not recommended as
+README hero images when a clearer three-model or product-level chart exists.
+For example, `reward_and_safety/train_holdout_gap.png` is effectively a
+zero-gap/blank overfitting check, and the policy-ablation reward chart is a
+diagnostic comparison rather than the strongest improvement chart.
+
+## Inference
+
+- [Inference Validity And Reward](inference/inference_validity_reward.png) - Best inference chart: valid action rate plus verifier reward across Qwen sizes.
+- [Inference Latency And Validity](inference/inference_latency_validity.png) - Supplemental product-readiness chart for latency and valid action output.
+
+## Model Comparison
+
+- [SFT Baseline vs GRPO Verifier Reward](model_comparison/sft_vs_grpo_reward_by_model.png) - Transparent SFT-vs-GRPO comparison; it also marks missing 0.5B/1.5B GRPO adapters as pending.
+- [Qwen SFT Reward Comparison](model_comparison/qwen_model_sft_reward.png) - Compares SFT baseline reward across model sizes.
+- [Qwen GRPO Reward Comparison](model_comparison/qwen_model_grpo_reward.png) - Compares available GRPO reward evidence across Qwen runs.
+- [SFT Loss By Qwen Size](model_comparison/sft_loss_by_qwen_size.png) - Compact 0.5B/1.5B/3B final SFT loss comparison.
+
+## Policy Ablation
+
+- [Policy Ablation Legality](policy_ablation/policy_ablation_legality.png) - Supplemental check showing legal/safe action output remains intact.
+- [Policy Ablation Reward](policy_ablation/policy_ablation_reward.png) - Supplemental diagnostic comparison between bandit-only, LLM-only, and LLM+bandit variants.
+
+## Product Over Basic Llm
+
+- [Basic LLM vs Full PolyGuard Pipeline](product_over_basic_llm/basic_llm_vs_full_pipeline_reward.png) - Best product-over-basic-LLM chart: verifier-scored workflow lift over a plain LLM-style policy.
+- [Reward Delta By Matched Seed](product_over_basic_llm/reward_delta_by_seed.png) - Shows per-episode improvement rather than only an aggregate average.
+
+## Reward And Safety
+
+- [Reward Component Bars](reward_and_safety/reward_component_bars.png) - Shows the verifier is multi-component, not a single opaque score.
+- [Primary Reward Channels](reward_and_safety/primary_reward_channel_bars.png) - Summarizes safety, clinical improvement, dosing quality, and process integrity.
+- [Train vs Holdout Reward Gap](reward_and_safety/train_holdout_gap.png) - Supplemental overfitting check; visually zero-gap/blank, so it is not used as a README hero.
+- [Anti-Cheat Failure Rates](reward_and_safety/anti_cheat_failure_rates.png) - Supplemental safeguard/failure-visibility chart; kept for audit but not frontpage.
+
+## Training
+
+- [SFT Loss Curves Across Qwen Runs](training/sft_loss_curves_all_models.png) - Shows supervised baseline training happened and loss was tracked.
+- [Qwen 3B GRPO Reward Curve](training/qwen_3b_grpo_reward_curve.png) - Environment-backed reward during GRPO training.
+- [Qwen 3B GRPO Training Loss](training/qwen_3b_grpo_loss_curve.png) - Rendered from tracked GRPO history to show RL training loss without retraining.
+- [Qwen 3B SFT Training Loss](training/qwen_3b_sft_training_loss.png) - Per-step SFT loss curve for the strongest available model.
+- [Qwen 3B GRPO KL During Training](training/qwen_3b_grpo_kl_curve.png) - Supplemental policy regularization behavior from tracked GRPO history.
diff --git a/docs/results/final_submission_evidence/charts/curated/chart_index.json b/docs/results/final_submission_evidence/charts/curated/chart_index.json
new file mode 100644
index 0000000000000000000000000000000000000000..3c36156dd9d54e9e05a47956b52ccbeb8135c931
--- /dev/null
+++ b/docs/results/final_submission_evidence/charts/curated/chart_index.json
@@ -0,0 +1,173 @@
+[
+  {
+    "category": "inference",
+    "title": "Inference Latency And Validity",
+    "purpose": "Product-readiness chart for latency and valid action output.",
+    "path": "charts/curated/inference/inference_latency_validity.png",
+    "source": "charts/frontpage/06_inference_latency_validity.png",
+    "bytes": 55565,
+    "frontpage": false
+  },
+  {
+    "category": "inference",
+    "title": "Inference Validity And Reward",
+    "purpose": "Shows inference validity alongside verifier reward.",
+    "path": "charts/curated/inference/inference_validity_reward.png",
+    "source": "charts/all/inference_validity_reward.png",
+    "bytes": 51943,
+    "frontpage": true
+  },
+  {
+    "category": "model_comparison",
+    "title": "Qwen GRPO Reward Comparison",
+    "purpose": "Compares available GRPO reward evidence across Qwen runs.",
+    "path": "charts/curated/model_comparison/qwen_model_grpo_reward.png",
+    "source": "charts/all/qwen_model_grpo_reward.png",
+    "bytes": 50755,
+    "frontpage": true
+  },
+  {
+    "category": "model_comparison",
+    "title": "Qwen SFT Reward Comparison",
+    "purpose": "Compares SFT baseline reward across model sizes.",
+    "path": "charts/curated/model_comparison/qwen_model_sft_reward.png",
+    "source": "charts/all/qwen_model_sft_reward.png",
+    "bytes": 49361,
+    "frontpage": true
+  },
+  {
+    "category": "model_comparison",
+    "title": "SFT Baseline vs GRPO Verifier Reward",
+    "purpose": "Best single chart for baseline-vs-trained policy reward comparison.",
+    "path": "charts/curated/model_comparison/sft_vs_grpo_reward_by_model.png",
+    "source": "charts/frontpage/00_sft_vs_grpo_reward_by_model.png",
+    "bytes": 41342,
+    "frontpage": true
+  },
+  {
+    "category": "model_comparison",
+    "title": "SFT Loss By Qwen Size",
+    "purpose": "Compact 0.5B/1.5B/3B baseline comparison.",
+    "path": "charts/curated/model_comparison/sft_loss_by_qwen_size.png",
+    "source": "charts/frontpage/08_sft_loss_by_model.png",
+    "bytes": 39545,
+    "frontpage": true
+  },
+  {
+    "category": "policy_ablation",
+    "title": "Policy Ablation Legality",
+    "purpose": "Keeps the improvement story tied to legal/safe actions.",
+    "path": "charts/curated/policy_ablation/policy_ablation_legality.png",
+    "source": "charts/all/policy_ablation_legality.png",
+    "bytes": 33228,
+    "frontpage": false
+  },
+  {
+    "category": "policy_ablation",
+    "title": "Policy Ablation Reward",
+    "purpose": "Compares bandit-only, LLM-only, and LLM+bandit variants.",
+    "path": "charts/curated/policy_ablation/policy_ablation_reward.png",
+    "source": "charts/frontpage/03_policy_ablation_reward.png",
+    "bytes": 39262,
+    "frontpage": false
+  },
+  {
+    "category": "product_over_basic_llm",
+    "title": "Basic LLM vs Full PolyGuard Pipeline",
+    "purpose": "Shows why the environment/verifier/bandit workflow helps over a plain LLM-style policy.",
+    "path": "charts/curated/product_over_basic_llm/basic_llm_vs_full_pipeline_reward.png",
+    "source": "charts/frontpage/01_basic_llm_vs_full_pipeline_reward.png",
+    "bytes": 58200,
+    "frontpage": true
+  },
+  {
+    "category": "product_over_basic_llm",
+    "title": "Reward Delta By Matched Seed",
+    "purpose": "Shows per-episode improvement rather than only an aggregate average.",
+    "path": "charts/curated/product_over_basic_llm/reward_delta_by_seed.png",
+    "source": "charts/frontpage/02_reward_delta_by_seed.png",
+    "bytes": 40643,
+    "frontpage": true
+  },
+  {
+    "category": "reward_and_safety",
+    "title": "Anti-Cheat Failure Rates",
+    "purpose": "Shows safeguard/failure visibility.",
+    "path": "charts/curated/reward_and_safety/anti_cheat_failure_rates.png",
+    "source": "charts/all/anti_cheat_failure_rates.png",
+    "bytes": 52299,
+    "frontpage": false
+  },
+  {
+    "category": "reward_and_safety",
+    "title": "Primary Reward Channels",
+    "purpose": "Summarizes safety, clinical improvement, dosing quality, and process integrity.",
+    "path": "charts/curated/reward_and_safety/primary_reward_channel_bars.png",
+    "source": "charts/all/primary_reward_channel_bars.png",
+    "bytes": 51895,
+    "frontpage": true
+  },
+  {
+    "category": "reward_and_safety",
+    "title": "Reward Component Bars",
+    "purpose": "Shows the verifier is multi-component, not a single opaque score.",
+    "path": "charts/curated/reward_and_safety/reward_component_bars.png",
+    "source": "charts/frontpage/04_reward_components.png",
+    "bytes": 142092,
+    "frontpage": true
+  },
+  {
+    "category": "reward_and_safety",
+    "title": "Train vs Holdout Reward Gap",
+    "purpose": "Overfitting check for train/holdout reward separation.",
+    "path": "charts/curated/reward_and_safety/train_holdout_gap.png",
+    "source": "charts/frontpage/05_train_holdout_gap.png",
+    "bytes": 49197,
+    "frontpage": false
+  },
+  {
+    "category": "training",
+    "title": "Qwen 3B GRPO KL During Training",
+    "purpose": "Generated from tracked GRPO history to show policy regularization behavior.",
+    "path": "charts/curated/training/qwen_3b_grpo_kl_curve.png",
+    "source": "docs/results/sweeps/qwen-qwen2-5-3b-instruct/grpo_history.json",
+    "bytes": 62997,
+    "frontpage": false
+  },
+  {
+    "category": "training",
+    "title": "Qwen 3B GRPO Reward Curve",
+    "purpose": "Environment-backed reward during GRPO training.",
+    "path": "charts/curated/training/qwen_3b_grpo_reward_curve.png",
+    "source": "charts/frontpage/09_qwen_3b_grpo_reward_curve.png",
+    "bytes": 112900,
+    "frontpage": true
+  },
+  {
+    "category": "training",
+    "title": "Qwen 3B GRPO Training Loss",
+    "purpose": "Generated from tracked GRPO history to show RL training loss without retraining.",
+    "path": "charts/curated/training/qwen_3b_grpo_loss_curve.png",
+    "source": "docs/results/sweeps/qwen-qwen2-5-3b-instruct/grpo_history.json",
+    "bytes": 56508,
+    "frontpage": true
+  },
+  {
+    "category": "training",
+    "title": "Qwen 3B SFT Training Loss",
+    "purpose": "Per-step SFT loss curve for the strongest available model.",
+    "path": "charts/curated/training/qwen_3b_sft_training_loss.png",
+    "source": "charts/all/qwen-qwen2-5-3b-instruct_sft_training_loss.png",
+    "bytes": 67479,
+    "frontpage": true
+  },
+  {
+    "category": "training",
+    "title": "SFT Loss Curves Across Qwen Runs",
+    "purpose": "Shows supervised baseline training happened and loss was tracked.",
+    "path": "charts/curated/training/sft_loss_curves_all_models.png",
+    "source": "charts/all/sft_loss_curves.png",
+    "bytes": 76643,
+    "frontpage": true
+  }
+]
diff --git a/docs/results/final_submission_evidence/charts/curated/inference/inference_latency_validity.png b/docs/results/final_submission_evidence/charts/curated/inference/inference_latency_validity.png
new file mode 100644
index 0000000000000000000000000000000000000000..1037053ea236e314bff051771b9a686a294aa9a4
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/inference/inference_latency_validity.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/inference/inference_validity_reward.png b/docs/results/final_submission_evidence/charts/curated/inference/inference_validity_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..e8dce9f4126e6e140650f1b0f29ad45975c93bc4
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/inference/inference_validity_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/model_comparison/qwen_model_grpo_reward.png b/docs/results/final_submission_evidence/charts/curated/model_comparison/qwen_model_grpo_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..ba56fd46b8319c7079ee914ec0058e4fe5c78fc9
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/model_comparison/qwen_model_grpo_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/model_comparison/qwen_model_sft_reward.png b/docs/results/final_submission_evidence/charts/curated/model_comparison/qwen_model_sft_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..c5462417c93e3527d7224d806ef80b153051050a
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/model_comparison/qwen_model_sft_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/model_comparison/sft_loss_by_qwen_size.png b/docs/results/final_submission_evidence/charts/curated/model_comparison/sft_loss_by_qwen_size.png
new file mode 100644
index 0000000000000000000000000000000000000000..4a687c2fae59bd3b623d905397c68b87b7ad1815
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/model_comparison/sft_loss_by_qwen_size.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/model_comparison/sft_vs_grpo_reward_by_model.png b/docs/results/final_submission_evidence/charts/curated/model_comparison/sft_vs_grpo_reward_by_model.png
new file mode 100644
index 0000000000000000000000000000000000000000..e009a28787920140b8dabb013fad290e869d7ccb
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/model_comparison/sft_vs_grpo_reward_by_model.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/policy_ablation/policy_ablation_legality.png b/docs/results/final_submission_evidence/charts/curated/policy_ablation/policy_ablation_legality.png
new file mode 100644
index 0000000000000000000000000000000000000000..0d394038c07f85a7d92077d553ae570bfba07caf
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/policy_ablation/policy_ablation_legality.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/policy_ablation/policy_ablation_reward.png b/docs/results/final_submission_evidence/charts/curated/policy_ablation/policy_ablation_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..4baa16a56f2615342fadaaf8b08b3b6247f9824f
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/policy_ablation/policy_ablation_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/product_over_basic_llm/basic_llm_vs_full_pipeline_reward.png b/docs/results/final_submission_evidence/charts/curated/product_over_basic_llm/basic_llm_vs_full_pipeline_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..630724370ea5b0c19b60ae41173f4c835d37accb
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/product_over_basic_llm/basic_llm_vs_full_pipeline_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/product_over_basic_llm/reward_delta_by_seed.png b/docs/results/final_submission_evidence/charts/curated/product_over_basic_llm/reward_delta_by_seed.png
new file mode 100644
index 0000000000000000000000000000000000000000..636dcbb7a4d53f984f1cf1ef549bf581e6792604
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/product_over_basic_llm/reward_delta_by_seed.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/reward_and_safety/anti_cheat_failure_rates.png b/docs/results/final_submission_evidence/charts/curated/reward_and_safety/anti_cheat_failure_rates.png
new file mode 100644
index 0000000000000000000000000000000000000000..d427bcf89e3f4752273406d156b28047a6018b1d
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/reward_and_safety/anti_cheat_failure_rates.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/reward_and_safety/primary_reward_channel_bars.png b/docs/results/final_submission_evidence/charts/curated/reward_and_safety/primary_reward_channel_bars.png
new file mode 100644
index 0000000000000000000000000000000000000000..2b33f8c40f985870bbf6ad986307cf9988ae229d
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/reward_and_safety/primary_reward_channel_bars.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/reward_and_safety/reward_component_bars.png b/docs/results/final_submission_evidence/charts/curated/reward_and_safety/reward_component_bars.png
new file mode 100644
index 0000000000000000000000000000000000000000..2f0b417999883105867eebe93b2fdb8bbdaf4b43
--- /dev/null
+++ b/docs/results/final_submission_evidence/charts/curated/reward_and_safety/reward_component_bars.png
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1bbe17a795d04470e938101377019eadd6246670049fc717149bbe6d28888bae
+size 142092
diff --git a/docs/results/final_submission_evidence/charts/curated/reward_and_safety/train_holdout_gap.png b/docs/results/final_submission_evidence/charts/curated/reward_and_safety/train_holdout_gap.png
new file mode 100644
index 0000000000000000000000000000000000000000..3fbf53ce81e3f27087a3db7baecdfc37f81a74fc
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/reward_and_safety/train_holdout_gap.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/training/qwen_3b_grpo_kl_curve.png b/docs/results/final_submission_evidence/charts/curated/training/qwen_3b_grpo_kl_curve.png
new file mode 100644
index 0000000000000000000000000000000000000000..df0388d2bc37ae0594eba5b44b3ec4b952011a6f
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/training/qwen_3b_grpo_kl_curve.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/training/qwen_3b_grpo_loss_curve.png b/docs/results/final_submission_evidence/charts/curated/training/qwen_3b_grpo_loss_curve.png
new file mode 100644
index 0000000000000000000000000000000000000000..ba43528fd6f127d7d99280c7ac5d87c4dfaaa02d
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/training/qwen_3b_grpo_loss_curve.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/training/qwen_3b_grpo_reward_curve.png b/docs/results/final_submission_evidence/charts/curated/training/qwen_3b_grpo_reward_curve.png
new file mode 100644
index 0000000000000000000000000000000000000000..ecb1cb54127349ed6e8416a4971497da5c18726a
--- /dev/null
+++ b/docs/results/final_submission_evidence/charts/curated/training/qwen_3b_grpo_reward_curve.png
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c8d2ad665b4b87fd278b9ffb84397b7d5e272c49748d6d67a71caa695349cb06
+size 112900
diff --git a/docs/results/final_submission_evidence/charts/curated/training/qwen_3b_sft_training_loss.png b/docs/results/final_submission_evidence/charts/curated/training/qwen_3b_sft_training_loss.png
new file mode 100644
index 0000000000000000000000000000000000000000..c02c8607fe3391354ab2842bd8a4b915dca9acfa
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/training/qwen_3b_sft_training_loss.png differ
diff --git a/docs/results/final_submission_evidence/charts/curated/training/sft_loss_curves_all_models.png b/docs/results/final_submission_evidence/charts/curated/training/sft_loss_curves_all_models.png
new file mode 100644
index 0000000000000000000000000000000000000000..60710fb94d95eba319e3426b4166a62877fe08cc
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/curated/training/sft_loss_curves_all_models.png differ
diff --git a/docs/results/final_submission_evidence/charts/frontpage/00_sft_vs_grpo_reward_by_model.png b/docs/results/final_submission_evidence/charts/frontpage/00_sft_vs_grpo_reward_by_model.png
new file mode 100644
index 0000000000000000000000000000000000000000..e009a28787920140b8dabb013fad290e869d7ccb
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/frontpage/00_sft_vs_grpo_reward_by_model.png differ
diff --git a/docs/results/final_submission_evidence/charts/frontpage/01_basic_llm_vs_full_pipeline_reward.png b/docs/results/final_submission_evidence/charts/frontpage/01_basic_llm_vs_full_pipeline_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..630724370ea5b0c19b60ae41173f4c835d37accb
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/frontpage/01_basic_llm_vs_full_pipeline_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/frontpage/02_reward_delta_by_seed.png b/docs/results/final_submission_evidence/charts/frontpage/02_reward_delta_by_seed.png
new file mode 100644
index 0000000000000000000000000000000000000000..636dcbb7a4d53f984f1cf1ef549bf581e6792604
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/frontpage/02_reward_delta_by_seed.png differ
diff --git a/docs/results/final_submission_evidence/charts/frontpage/03_policy_ablation_reward.png b/docs/results/final_submission_evidence/charts/frontpage/03_policy_ablation_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..4baa16a56f2615342fadaaf8b08b3b6247f9824f
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/frontpage/03_policy_ablation_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/frontpage/04_reward_components.png b/docs/results/final_submission_evidence/charts/frontpage/04_reward_components.png
new file mode 100644
index 0000000000000000000000000000000000000000..2f0b417999883105867eebe93b2fdb8bbdaf4b43
--- /dev/null
+++ b/docs/results/final_submission_evidence/charts/frontpage/04_reward_components.png
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1bbe17a795d04470e938101377019eadd6246670049fc717149bbe6d28888bae
+size 142092
diff --git a/docs/results/final_submission_evidence/charts/frontpage/05_train_holdout_gap.png b/docs/results/final_submission_evidence/charts/frontpage/05_train_holdout_gap.png
new file mode 100644
index 0000000000000000000000000000000000000000..3fbf53ce81e3f27087a3db7baecdfc37f81a74fc
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/frontpage/05_train_holdout_gap.png differ
diff --git a/docs/results/final_submission_evidence/charts/frontpage/06_inference_latency_validity.png b/docs/results/final_submission_evidence/charts/frontpage/06_inference_latency_validity.png
new file mode 100644
index 0000000000000000000000000000000000000000..1037053ea236e314bff051771b9a686a294aa9a4
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/frontpage/06_inference_latency_validity.png differ
diff --git a/docs/results/final_submission_evidence/charts/frontpage/07_sft_vs_grpo_reward.png b/docs/results/final_submission_evidence/charts/frontpage/07_sft_vs_grpo_reward.png
new file mode 100644
index 0000000000000000000000000000000000000000..0938d1b65b686f5a79f614601f7b434963e79094
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/frontpage/07_sft_vs_grpo_reward.png differ
diff --git a/docs/results/final_submission_evidence/charts/frontpage/08_sft_loss_by_model.png b/docs/results/final_submission_evidence/charts/frontpage/08_sft_loss_by_model.png
new file mode 100644
index 0000000000000000000000000000000000000000..4a687c2fae59bd3b623d905397c68b87b7ad1815
Binary files /dev/null and b/docs/results/final_submission_evidence/charts/frontpage/08_sft_loss_by_model.png differ
diff --git a/docs/results/final_submission_evidence/charts/frontpage/09_qwen_3b_grpo_reward_curve.png b/docs/results/final_submission_evidence/charts/frontpage/09_qwen_3b_grpo_reward_curve.png
new file mode 100644
index 0000000000000000000000000000000000000000..ecb1cb54127349ed6e8416a4971497da5c18726a
--- /dev/null
+++ b/docs/results/final_submission_evidence/charts/frontpage/09_qwen_3b_grpo_reward_curve.png
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c8d2ad665b4b87fd278b9ffb84397b7d5e272c49748d6d67a71caa695349cb06
+size 112900
diff --git a/docs/results/final_submission_evidence/charts/stale_superseded/README.md b/docs/results/final_submission_evidence/charts/stale_superseded/README.md
new file mode 100644
index 0000000000000000000000000000000000000000..537072c90f37b5974227780c6eb15c2385bbdd8f
--- /dev/null
+++ b/docs/results/final_submission_evidence/charts/stale_superseded/README.md
@@ -0,0 +1,31 @@
+# Stale Or Superseded Charts
+
+These files are not deleted because older docs, acceptance checks, and audit
+history may still reference them. They are de-emphasized because newer final
+charts include Qwen 3B and the full PolyGuard pipeline comparison.
+
+## Qwen 0 5B 1 5B Only
+
+- `all/qwen_0_5b_vs_1_5b_sft_loss_comparison.png` - Superseded by model_comparison/sft_loss_by_qwen_size.png.
+- `all/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png` - Kept for audit, but final story uses the 3-model SFT/loss comparison.
+- `all/qwen_0_5b_1_5b_final_sft_train_loss.png` - Superseded by model_comparison/sft_loss_by_qwen_size.png.
+- `all/qwen_0_5b_1_5b_postsave_reward.png` - Superseded by model_comparison and inference curated charts.
+- `all/qwen_0_5b_1_5b_postsave_latency.png` - Superseded by inference/inference_latency_validity.png.
+- `all/qwen_0_5b_1_5b_remote_completed_stage_durations.png` - Useful run log, but not a frontpage submission chart.
+- `all/qwen_0_5b_1_5b_sft_runtime.png` - Useful audit chart, not a primary result chart.
+
+## Individual Model Curves
+
+- `all/qwen_0_5b_sft_training_loss.png` - Individual 0.5B curve; final view prefers all-model SFT curves.
+- `all/qwen_1_5b_sft_training_loss.png` - Individual 1.5B curve; final view prefers all-model SFT curves.
+- `all/qwen_0_5b_sft_learning_rate.png` - Individual learning-rate curve retained for audit.
+- `all/qwen_1_5b_sft_learning_rate.png` - Individual learning-rate curve retained for audit.
+- `all/qwen_0_5b_sft_token_accuracy.png` - Individual token-accuracy curve retained for audit.
+- `all/qwen_1_5b_sft_token_accuracy.png` - Individual token-accuracy curve retained for audit.
+
+## Smoke Or Legacy Root Charts
+
+- `../avg_reward.png` - Older smoke/evaluation mirror required by acceptance checks.
+- `../policy_stack_avg_reward.png` - Older smoke/evaluation mirror required by acceptance checks.
+- `../sft_vs_grpo_reward.png` - Older root mirror; curated model comparison now lives under final_submission_evidence.
+- `../grpo_reward_curves.png` - Older root mirror; curated GRPO reward/loss charts now live under final_submission_evidence.
diff --git a/docs/results/final_submission_evidence/charts/stale_superseded/superseded_chart_index.json b/docs/results/final_submission_evidence/charts/stale_superseded/superseded_chart_index.json
new file mode 100644
index 0000000000000000000000000000000000000000..12e6ce6196d667107b14cf7066739ece0e1d15e8
--- /dev/null
+++ b/docs/results/final_submission_evidence/charts/stale_superseded/superseded_chart_index.json
@@ -0,0 +1,76 @@
+{
+  "qwen_0_5b_1_5b_only": [
+    [
+      "all/qwen_0_5b_vs_1_5b_sft_loss_comparison.png",
+      "Superseded by model_comparison/sft_loss_by_qwen_size.png."
+    ],
+    [
+      "all/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png",
+      "Kept for audit, but final story uses the 3-model SFT/loss comparison."
+    ],
+    [
+      "all/qwen_0_5b_1_5b_final_sft_train_loss.png",
+      "Superseded by model_comparison/sft_loss_by_qwen_size.png."
+    ],
+    [
+      "all/qwen_0_5b_1_5b_postsave_reward.png",
+      "Superseded by model_comparison and inference curated charts."
+    ],
+    [
+      "all/qwen_0_5b_1_5b_postsave_latency.png",
+      "Superseded by inference/inference_latency_validity.png."
+    ],
+    [
+      "all/qwen_0_5b_1_5b_remote_completed_stage_durations.png",
+      "Useful run log, but not a frontpage submission chart."
+    ],
+    [
+      "all/qwen_0_5b_1_5b_sft_runtime.png",
+      "Useful audit chart, not a primary result chart."
+    ]
+  ],
+  "individual_model_curves": [
+    [
+      "all/qwen_0_5b_sft_training_loss.png",
+      "Individual 0.5B curve; final view prefers all-model SFT curves."
+    ],
+    [
+      "all/qwen_1_5b_sft_training_loss.png",
+      "Individual 1.5B curve; final view prefers all-model SFT curves."
+    ],
+    [
+      "all/qwen_0_5b_sft_learning_rate.png",
+      "Individual learning-rate curve retained for audit."
+    ],
+    [
+      "all/qwen_1_5b_sft_learning_rate.png",
+      "Individual learning-rate curve retained for audit."
+    ],
+    [
+      "all/qwen_0_5b_sft_token_accuracy.png",
+      "Individual token-accuracy curve retained for audit."
+    ],
+    [
+      "all/qwen_1_5b_sft_token_accuracy.png",
+      "Individual token-accuracy curve retained for audit."
+    ]
+  ],
+  "smoke_or_legacy_root_charts": [
+    [
+      "../avg_reward.png",
+      "Older smoke/evaluation mirror required by acceptance checks."
+    ],
+    [
+      "../policy_stack_avg_reward.png",
+      "Older smoke/evaluation mirror required by acceptance checks."
+    ],
+    [
+      "../sft_vs_grpo_reward.png",
+      "Older root mirror; curated model comparison now lives under final_submission_evidence."
+    ],
+    [
+      "../grpo_reward_curves.png",
+      "Older root mirror; curated GRPO reward/loss charts now live under final_submission_evidence."
+    ]
+  ]
+}
diff --git a/docs/results/final_submission_evidence/manifest.json b/docs/results/final_submission_evidence/manifest.json
new file mode 100644
index 0000000000000000000000000000000000000000..130a4d29675a80fb7872e266d0b6ceb17e8edb2f
--- /dev/null
+++ b/docs/results/final_submission_evidence/manifest.json
@@ -0,0 +1,250 @@
+{
+  "status": "ok",
+  "space_id": "adithya9903/polyguard-openenv-final-artifacts",
+  "space_url": "https://huggingface.co/spaces/adithya9903/polyguard-openenv-final-artifacts",
+  "docs_dir": "docs/results/final_submission_evidence",
+  "evidence_source": "docs/results/submission_evidence_qwen_0_5b_1_5b_3b",
+  "artifact_availability": {
+    "qwen-qwen2-5-0-5b-instruct": {
+      "label": "Qwen 0.5B",
+      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
+      "checkpoint_tree": {
+        "exists": false,
+        "file_count": 0,
+        "bytes": 0
+      },
+      "sft_adapter": {
+        "exists": false,
+        "file_count": 0,
+        "bytes": 0
+      },
+      "grpo_adapter": {
+        "exists": false,
+        "file_count": 0,
+        "bytes": 0
+      },
+      "reports": {
+        "exists": true,
+        "file_count": 4,
+        "bytes": 435858
+      },
+      "sft_report": true,
+      "grpo_report": false,
+      "postsave_sft": true,
+      "postsave_grpo": false,
+      "policy_ablation": false,
+      "missing_trained_files": [
+        "sft_adapter",
+        "grpo_adapter"
+      ],
+      "status": "reports_only_or_partial"
+    },
+    "qwen-qwen2-5-1-5b-instruct": {
+      "label": "Qwen 1.5B",
+      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
+      "checkpoint_tree": {
+        "exists": false,
+        "file_count": 0,
+        "bytes": 0
+      },
+      "sft_adapter": {
+        "exists": false,
+        "file_count": 0,
+        "bytes": 0
+      },
+      "grpo_adapter": {
+        "exists": false,
+        "file_count": 0,
+        "bytes": 0
+      },
+      "reports": {
+        "exists": true,
+        "file_count": 4,
+        "bytes": 854543
+      },
+      "sft_report": true,
+      "grpo_report": false,
+      "postsave_sft": true,
+      "postsave_grpo": false,
+      "policy_ablation": false,
+      "missing_trained_files": [
+        "sft_adapter",
+        "grpo_adapter"
+      ],
+      "status": "reports_only_or_partial"
+    },
+    "qwen-qwen2-5-3b-instruct": {
+      "label": "Qwen 3B",
+      "model_id": "Qwen/Qwen2.5-3B-Instruct",
+      "checkpoint_tree": {
+        "exists": true,
+        "file_count": 125,
+        "bytes": 433208536
+      },
+      "sft_adapter": {
+        "exists": true,
+        "file_count": 11,
+        "bytes": 30655905
+      },
+      "grpo_adapter": {
+        "exists": true,
+        "file_count": 11,
+        "bytes": 30656841
+      },
+      "reports": {
+        "exists": true,
+        "file_count": 9,
+        "bytes": 5930214
+      },
+      "sft_report": true,
+      "grpo_report": true,
+      "postsave_sft": true,
+      "postsave_grpo": true,
+      "policy_ablation": true,
+      "missing_trained_files": [],
+      "status": "complete"
+    }
+  },
+  "submission_models": [
+    {
+      "run_id": "qwen-qwen2-5-0-5b-instruct",
+      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
+      "label": "Qwen 0.5B",
+      "statuses": {
+        "sft_training": "artifact_available",
+        "sft_postsave_inference": "artifact_available",
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
+      },
+      "metrics": {
+        "sft_train_loss": 0.19233327957964502,
+        "sft_train_runtime": 234.6302,
+        "sft_examples_used": 2000,
+        "sft_history_steps": 2001,
+        "sft_first_loss": 3.0856,
+        "sft_last_loss": 0.0626,
+        "sft_best_loss": 0.0057,
+        "sft_last_token_accuracy": 0.9717137813568115,
+        "sft_valid_rate": 1.0,
+        "sft_avg_env_reward": 0.726,
+        "sft_avg_latency_seconds": 1.839,
+        "grpo_avg_reward": null,
+        "grpo_history_steps": 0,
+        "grpo_valid_rate": null,
+        "grpo_avg_env_reward": null,
+        "grpo_avg_latency_seconds": null
+      },
+      "files": {
+        "run_metadata.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-0-5b-instruct/run_metadata.json",
+        "sft_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-0-5b-instruct/sft_trl_run.json",
+        "sft_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-0-5b-instruct/sft_history.json",
+        "postsave_inference_sft.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-0-5b-instruct/postsave_inference_sft.json",
+        "grpo_trl_run.json": "",
+        "grpo_history.json": "",
+        "grpo_reward_components.jsonl": "",
+        "postsave_inference_grpo.json": "",
+        "grpo_ablation_report.json": "",
+        "error.json": ""
+      }
+    },
+    {
+      "run_id": "qwen-qwen2-5-1-5b-instruct",
+      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
+      "label": "Qwen 1.5B",
+      "statuses": {
+        "sft_training": "artifact_available",
+        "sft_postsave_inference": "artifact_available",
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
+      },
+      "metrics": {
+        "sft_train_loss": 0.11515871361242898,
+        "sft_train_runtime": 483.7085,
+        "sft_examples_used": 2000,
+        "sft_history_steps": 4001,
+        "sft_first_loss": 2.9686,
+        "sft_last_loss": 0.0681,
+        "sft_best_loss": 0.0009,
+        "sft_last_token_accuracy": 0.9726027250289917,
+        "sft_valid_rate": 1.0,
+        "sft_avg_env_reward": 0.726,
+        "sft_avg_latency_seconds": 2.158,
+        "grpo_avg_reward": null,
+        "grpo_history_steps": 0,
+        "grpo_valid_rate": null,
+        "grpo_avg_env_reward": null,
+        "grpo_avg_latency_seconds": null
+      },
+      "files": {
+        "run_metadata.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-1-5b-instruct/run_metadata.json",
+        "sft_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-1-5b-instruct/sft_trl_run.json",
+        "sft_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-1-5b-instruct/sft_history.json",
+        "postsave_inference_sft.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-1-5b-instruct/postsave_inference_sft.json",
+        "grpo_trl_run.json": "",
+        "grpo_history.json": "",
+        "grpo_reward_components.jsonl": "",
+        "postsave_inference_grpo.json": "",
+        "grpo_ablation_report.json": "",
+        "error.json": ""
+      }
+    },
+    {
+      "run_id": "qwen-qwen2-5-3b-instruct",
+      "model_id": "Qwen/Qwen2.5-3B-Instruct",
+      "label": "Qwen 3B",
+      "statuses": {
+        "sft_training": "artifact_available",
+        "sft_postsave_inference": "artifact_available",
+        "grpo_training": "artifact_available",
+        "grpo_postsave_inference": "artifact_available",
+        "policy_ablation": "artifact_available"
+      },
+      "metrics": {
+        "sft_train_loss": 0.15688225453009363,
+        "sft_train_runtime": 715.2908,
+        "sft_examples_used": 2000,
+        "sft_history_steps": 2001,
+        "sft_first_loss": 3.5687,
+        "sft_last_loss": 0.054,
+        "sft_best_loss": 0.0022,
+        "sft_last_token_accuracy": 0.9750415682792664,
+        "sft_valid_rate": 1.0,
+        "sft_avg_env_reward": 0.781,
+        "sft_avg_latency_seconds": 2.863,
+        "grpo_avg_reward": 0.767,
+        "grpo_history_steps": 2001,
+        "grpo_valid_rate": 1.0,
+        "grpo_avg_env_reward": 0.726,
+        "grpo_avg_latency_seconds": 3.681
+      },
+      "files": {
+        "run_metadata.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/run_metadata.json",
+        "sft_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_trl_run.json",
+        "sft_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_history.json",
+        "postsave_inference_sft.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/postsave_inference_sft.json",
+        "grpo_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_trl_run.json",
+        "grpo_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_history.json",
+        "grpo_reward_components.jsonl": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl",
+        "postsave_inference_grpo.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/postsave_inference_grpo.json",
+        "grpo_ablation_report.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_ablation_report.json",
+        "error.json": ""
+      }
+    }
+  ],
+  "basic_vs_pipeline": {
+    "reward_delta": 0.043,
+    "basic_reward": 0.762,
+    "pipeline_reward": 0.805,
+    "basic_failure_rate": 0.25,
+    "pipeline_failure_rate": 0.0,
+    "pipeline_legality": 1.0
+  },
+  "download_command": "HF_TOKEN=<token> ./.venv/bin/hf download adithya9903/polyguard-openenv-final-artifacts --repo-type space --local-dir ./hf_final_artifacts",
+  "notes": [
+    "Packaging-only run; no retraining is performed.",
+    "Qwen 3B has SFT and GRPO adapter directories plus checkpoint metadata/intermediate checkpoints in this artifact Space.",
+    "Qwen 0.5B and 1.5B adapter directories were not present locally or in the checked artifact repos; reports remain included."
+  ]
+}
diff --git a/docs/results/final_submission_evidence/reports/action_traces.jsonl b/docs/results/final_submission_evidence/reports/action_traces.jsonl
new file mode 100644
index 0000000000000000000000000000000000000000..d56e880924f72c4f93f612c103f83f5f25925362
--- /dev/null
+++ b/docs/results/final_submission_evidence/reports/action_traces.jsonl
@@ -0,0 +1,24 @@
+{"seed": 8000, "policy": "basic_llm", "reward": 0.717, "latency_seconds": 0.0234, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "exploit_detection", "failure_reasons": ["holdout_ddi_not_addressed"], "anti_cheat_reasons": ["holdout_ddi_not_addressed"], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8000, "policy": "sft_policy", "reward": 0.803, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_02", "action_type": "STOP_DRUG", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8000, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 4.1357, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8001, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0013, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8001, "policy": "sft_policy", "reward": 0.755, "latency_seconds": 0.0011, "legal": true, "candidate_id": "cand_02", "action_type": "STOP_DRUG", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8001, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0025, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8002, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0011, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8002, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0015, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8002, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 0.0024, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8003, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8003, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8003, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0022, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8004, "policy": "basic_llm", "reward": 0.717, "latency_seconds": 0.0013, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "exploit_detection", "failure_reasons": ["holdout_ddi_not_addressed"], "anti_cheat_reasons": ["holdout_ddi_not_addressed"], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8004, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8004, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 0.0024, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8005, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8005, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8005, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0025, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8006, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8006, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8006, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0022, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8007, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0011, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8007, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0011, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8007, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0024, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
diff --git a/docs/results/final_submission_evidence/reports/basic_llm_failure_cases.md b/docs/results/final_submission_evidence/reports/basic_llm_failure_cases.md
new file mode 100644
index 0000000000000000000000000000000000000000..d520a446c99c01d6446abc8c937157e54f669684
--- /dev/null
+++ b/docs/results/final_submission_evidence/reports/basic_llm_failure_cases.md
@@ -0,0 +1,43 @@
+# Basic LLM vs PolyGuard Failure Cases
+
+## Seed 8000
+
+- Baseline attempt: candidate `cand_01`, reward `0.717`.
+- PolyGuard pipeline attempt: candidate `cand_03`, reward `0.804`.
+- Measured reward delta: `0.087`.
+- Safeguard: every selected action is re-scored by the legality gate, anti-cheat checks, and decomposed clinical/process reward channels.
+
+## Seed 8004
+
+- Baseline attempt: candidate `cand_01`, reward `0.717`.
+- PolyGuard pipeline attempt: candidate `cand_03`, reward `0.804`.
+- Measured reward delta: `0.087`.
+- Safeguard: every selected action is re-scored by the legality gate, anti-cheat checks, and decomposed clinical/process reward channels.
+
+## Seed 8001
+
+- Baseline attempt: candidate `cand_01`, reward `0.777`.
+- PolyGuard pipeline attempt: candidate `cand_05`, reward `0.806`.
+- Measured reward delta: `0.029`.
+- Safeguard: every selected action is re-scored by the legality gate, anti-cheat checks, and decomposed clinical/process reward channels.
+
+## Seed 8003
+
+- Baseline attempt: candidate `cand_01`, reward `0.777`.
+- PolyGuard pipeline attempt: candidate `cand_05`, reward `0.806`.
+- Measured reward delta: `0.029`.
+- Safeguard: every selected action is re-scored by the legality gate, anti-cheat checks, and decomposed clinical/process reward channels.
+
+## Seed 8005
+
+- Baseline attempt: candidate `cand_01`, reward `0.777`.
+- PolyGuard pipeline attempt: candidate `cand_05`, reward `0.806`.
+- Measured reward delta: `0.029`.
+- Safeguard: every selected action is re-scored by the legality gate, anti-cheat checks, and decomposed clinical/process reward channels.
+
+## Seed 8006
+
+- Baseline attempt: candidate `cand_01`, reward `0.777`.
+- PolyGuard pipeline attempt: candidate `cand_05`, reward `0.806`.
+- Measured reward delta: `0.029`.
+- Safeguard: every selected action is re-scored by the legality gate, anti-cheat checks, and decomposed clinical/process reward channels.
diff --git a/docs/results/final_submission_evidence/reports/basic_llm_vs_polyguard_report.json b/docs/results/final_submission_evidence/reports/basic_llm_vs_polyguard_report.json
new file mode 100644
index 0000000000000000000000000000000000000000..9b120712be826a1d61d0638a2d6fa752684d1563
--- /dev/null
+++ b/docs/results/final_submission_evidence/reports/basic_llm_vs_polyguard_report.json
@@ -0,0 +1,133 @@
+{
+  "status": "ok",
+  "judge": "PolyGuard verifier/reward system",
+  "llm_as_judge": false,
+  "matched_seeds": [
+    8000,
+    8001,
+    8002,
+    8003,
+    8004,
+    8005,
+    8006,
+    8007
+  ],
+  "summaries": {
+    "basic_llm": {
+      "episodes": 8,
+      "avg_reward": 0.762,
+      "avg_latency_seconds": 0.004,
+      "legality_rate": 1.0,
+      "exploit_or_failure_rate": 0.25,
+      "candidate_diversity": 1
+    },
+    "sft_policy": {
+      "episodes": 8,
+      "avg_reward": 0.818,
+      "avg_latency_seconds": 0.0012,
+      "legality_rate": 1.0,
+      "exploit_or_failure_rate": 0.0,
+      "candidate_diversity": 2
+    },
+    "full_polyguard_pipeline": {
+      "episodes": 8,
+      "avg_reward": 0.805,
+      "avg_latency_seconds": 0.519,
+      "legality_rate": 1.0,
+      "exploit_or_failure_rate": 0.0,
+      "candidate_diversity": 2
+    }
+  },
+  "pipeline_minus_basic_reward_delta": 0.043,
+  "deltas": [
+    {
+      "seed": 8000,
+      "basic_reward": 0.717,
+      "pipeline_reward": 0.804,
+      "reward_delta": 0.087,
+      "basic_candidate_id": "cand_01",
+      "pipeline_candidate_id": "cand_03",
+      "basic_failure_reasons": [
+        "holdout_ddi_not_addressed"
+      ],
+      "pipeline_failure_reasons": []
+    },
+    {
+      "seed": 8001,
+      "basic_reward": 0.777,
+      "pipeline_reward": 0.806,
+      "reward_delta": 0.029,
+      "basic_candidate_id": "cand_01",
+      "pipeline_candidate_id": "cand_05",
+      "basic_failure_reasons": [],
+      "pipeline_failure_reasons": []
+    },
+    {
+      "seed": 8002,
+      "basic_reward": 0.777,
+      "pipeline_reward": 0.804,
+      "reward_delta": 0.027,
+      "basic_candidate_id": "cand_01",
+      "pipeline_candidate_id": "cand_03",
+      "basic_failure_reasons": [],
+      "pipeline_failure_reasons": []
+    },
+    {
+      "seed": 8003,
+      "basic_reward": 0.777,
+      "pipeline_reward": 0.806,
+      "reward_delta": 0.029,
+      "basic_candidate_id": "cand_01",
+      "pipeline_candidate_id": "cand_05",
+      "basic_failure_reasons": [],
+      "pipeline_failure_reasons": []
+    },
+    {
+      "seed": 8004,
+      "basic_reward": 0.717,
+      "pipeline_reward": 0.804,
+      "reward_delta": 0.087,
+      "basic_candidate_id": "cand_01",
+      "pipeline_candidate_id": "cand_03",
+      "basic_failure_reasons": [
+        "holdout_ddi_not_addressed"
+      ],
+      "pipeline_failure_reasons": []
+    },
+    {
+      "seed": 8005,
+      "basic_reward": 0.777,
+      "pipeline_reward": 0.806,
+      "reward_delta": 0.029,
+      "basic_candidate_id": "cand_01",
+      "pipeline_candidate_id": "cand_05",
+      "basic_failure_reasons": [],
+      "pipeline_failure_reasons": []
+    },
+    {
+      "seed": 8006,
+      "basic_reward": 0.777,
+      "pipeline_reward": 0.806,
+      "reward_delta": 0.029,
+      "basic_candidate_id": "cand_01",
+      "pipeline_candidate_id": "cand_05",
+      "basic_failure_reasons": [],
+      "pipeline_failure_reasons": []
+    },
+    {
+      "seed": 8007,
+      "basic_reward": 0.777,
+      "pipeline_reward": 0.806,
+      "reward_delta": 0.029,
+      "basic_candidate_id": "cand_01",
+      "pipeline_candidate_id": "cand_05",
+      "basic_failure_reasons": [],
+      "pipeline_failure_reasons": []
+    }
+  ],
+  "notes": [
+    "basic_llm is an evaluation-only prompt-style proxy that selects the first legal candidate without verifier reranking.",
+    "sft_policy is an evaluation-only SFT-style safety ranker over the same candidate set.",
+    "full_polyguard_pipeline runs the orchestrated LLM+bandit stack and scores through the same verifier."
+  ]
+}
diff --git a/docs/results/final_submission_evidence/reports/grpo_ablation_report.json b/docs/results/final_submission_evidence/reports/grpo_ablation_report.json
new file mode 100644
index 0000000000000000000000000000000000000000..89d5d32978be7e468119b45142923322586f281c
--- /dev/null
+++ b/docs/results/final_submission_evidence/reports/grpo_ablation_report.json
@@ -0,0 +1,149 @@
+{
+  "status": "ok",
+  "ablations": {
+    "bandit_only": {
+      "avg_reward": 0.779625,
+      "legality_rate": 1.0,
+      "severe_violation_rate": 0.0,
+      "abstention_rate": 0.0,
+      "avg_episode_length": 2.8125,
+      "success_rate": 0.0,
+      "avg_burden_delta": 0.0,
+      "avg_safety_delta": 0.483125,
+      "avg_dosing_quality": 0.75,
+      "avg_process_fidelity": 0.9056250000000008,
+      "exploit_detection_count": 2.0,
+      "timeout_rate": 0.0,
+      "failure_visible_rate": 0.0625,
+      "avg_invalid_actions": 0.0625,
+      "reward_columns": {
+        "format_compliance_score": 0.9989999999999996,
+        "candidate_alignment_score": 0.9989999999999996,
+        "legality_score": 0.9989999999999996,
+        "safety_delta_score": 0.483125,
+        "burden_improvement_score": 0.5,
+        "disease_stability_score": 0.8999999999999995,
+        "dosing_quality_score": 0.75,
+        "abstention_quality_score": 0.5600000000000002,
+        "efficiency_score": 0.5855625,
+        "process_fidelity_score": 0.9056250000000008,
+        "explanation_grounding_score": 0.8000000000000004,
+        "anti_cheat_score": 0.9366249999999997,
+        "uncertainty_calibration_score": 0.8531250000000004
+      },
+      "primary_reward_channels": {
+        "safety_legality": 0.9469062499999998,
+        "clinical_improvement": 0.6273749999999997,
+        "dosing_quality": 0.6550000000000001,
+        "process_integrity": 0.8225937500000001
+      },
+      "policy_stack": "bandit-only",
+      "failure_mining": {
+        "total_rows": 32,
+        "failure_rows": 2,
+        "top_failure_reasons": [
+          {
+            "reason": "repeated_action_loop",
+            "count": 2
+          }
+        ]
+      }
+    },
+    "llm_only": {
+      "avg_reward": 0.7723913043478261,
+      "legality_rate": 1.0,
+      "severe_violation_rate": 0.0,
+      "abstention_rate": 0.0,
+      "avg_episode_length": 1.9565217391304348,
+      "success_rate": 0.0,
+      "avg_burden_delta": 0.0,
+      "avg_safety_delta": 0.4882608695652174,
+      "avg_dosing_quality": 0.75,
+      "avg_process_fidelity": 0.9000000000000005,
+      "exploit_detection_count": 7.0,
+      "timeout_rate": 0.0,
+      "failure_visible_rate": 0.30434782608695654,
+      "avg_invalid_actions": 0.30434782608695654,
+      "reward_columns": {
+        "format_compliance_score": 0.9989999999999999,
+        "candidate_alignment_score": 0.9989999999999999,
+        "legality_score": 0.9989999999999999,
+        "safety_delta_score": 0.4882608695652174,
+        "burden_improvement_score": 0.5,
+        "disease_stability_score": 0.8999999999999998,
+        "dosing_quality_score": 0.75,
+        "abstention_quality_score": 0.5600000000000004,
+        "efficiency_score": 0.7027826086956522,
+        "process_fidelity_score": 0.9000000000000005,
+        "explanation_grounding_score": 0.8000000000000003,
+        "anti_cheat_score": 0.6952608695652175,
+        "uncertainty_calibration_score": 0.8482608695652176
+      },
+      "primary_reward_channels": {
+        "safety_legality": 0.8853478260869562,
+        "clinical_improvement": 0.6290869565217388,
+        "dosing_quality": 0.6549999999999998,
+        "process_integrity": 0.8504782608695656
+      },
+      "policy_stack": "llm-only",
+      "failure_mining": {
+        "total_rows": 23,
+        "failure_rows": 7,
+        "top_failure_reasons": [
+          {
+            "reason": "repeated_action_loop",
+            "count": 7
+          }
+        ]
+      }
+    },
+    "llm_bandit": {
+      "avg_reward": 0.7647391304347826,
+      "legality_rate": 1.0,
+      "severe_violation_rate": 0.0,
+      "abstention_rate": 0.0,
+      "avg_episode_length": 1.9565217391304348,
+      "success_rate": 0.0,
+      "avg_burden_delta": 0.0,
+      "avg_safety_delta": 0.48982608695652174,
+      "avg_dosing_quality": 0.717391304347826,
+      "avg_process_fidelity": 0.9000000000000005,
+      "exploit_detection_count": 7.0,
+      "timeout_rate": 0.0,
+      "failure_visible_rate": 0.30434782608695654,
+      "avg_invalid_actions": 0.30434782608695654,
+      "reward_columns": {
+        "format_compliance_score": 0.9989999999999999,
+        "candidate_alignment_score": 0.9989999999999999,
+        "legality_score": 0.9989999999999999,
+        "safety_delta_score": 0.48982608695652174,
+        "burden_improvement_score": 0.5043478260869565,
+        "disease_stability_score": 0.8582608695652173,
+        "dosing_quality_score": 0.717391304347826,
+        "abstention_quality_score": 0.5600000000000004,
+        "efficiency_score": 0.7027826086956522,
+        "process_fidelity_score": 0.9000000000000005,
+        "explanation_grounding_score": 0.8000000000000003,
+        "anti_cheat_score": 0.6952608695652175,
+        "uncertainty_calibration_score": 0.8126086956521739
+      },
+      "primary_reward_channels": {
+        "safety_legality": 0.8765217391304347,
+        "clinical_improvement": 0.6171739130434781,
+        "dosing_quality": 0.6386956521739129,
+        "process_integrity": 0.8504782608695656
+      },
+      "policy_stack": "llm+bandit",
+      "failure_mining": {
+        "total_rows": 23,
+        "failure_rows": 7,
+        "top_failure_reasons": [
+          {
+            "reason": "repeated_action_loop",
+            "count": 7
+          }
+        ]
+      }
+    }
+  }
+}
\ No newline at end of file
diff --git a/docs/results/final_submission_evidence/reports/grpo_trl_run.json b/docs/results/final_submission_evidence/reports/grpo_trl_run.json
new file mode 100644
index 0000000000000000000000000000000000000000..87ca8fb39dcfbc92786e290045c1da201ca5d1df
--- /dev/null
+++ b/docs/results/final_submission_evidence/reports/grpo_trl_run.json
@@ -0,0 +1,43 @@
+{
+  "status": "ok",
+  "backend": "trl_transformers",
+  "model_id": "Qwen/Qwen2.5-3B-Instruct",
+  "records": 2000,
+  "prompts_path": "/app/data/processed/training_corpus_grpo_prompts.jsonl",
+  "reward_summary": {
+    "count": 4000,
+    "avg_reward": 0.767,
+    "avg_reward_components": {
+      "format_compliance_score": 0.999,
+      "candidate_alignment_score": 0.999,
+      "legality_score": 0.929,
+      "safety_delta_score": 0.497,
+      "burden_improvement_score": 0.469,
+      "disease_stability_score": 0.861,
+      "dosing_quality_score": 0.526,
+      "abstention_quality_score": 0.56,
+      "efficiency_score": 0.849,
+      "process_fidelity_score": 0.856,
+      "explanation_grounding_score": 0.795,
+      "anti_cheat_score": 0.589,
+      "uncertainty_calibration_score": 0.747
+    },
+    "avg_primary_reward_channels": {
+      "safety_legality": 0.816,
+      "clinical_improvement": 0.609,
+      "dosing_quality": 0.543,
+      "process_integrity": 0.875
+    }
+  },
+  "reward_log": "/app/checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl",
+  "train_metrics": {
+    "train_runtime": 6873.9375,
+    "train_samples_per_second": 0.291,
+    "train_steps_per_second": 0.291,
+    "total_flos": 0.0,
+    "train_loss": 2.665005830824185e-06
+  },
+  "history_path": "/app/checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_history.json",
+  "artifact_path": "/app/checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_adapter",
+  "unsloth_available": false
+}
\ No newline at end of file
diff --git a/docs/results/final_submission_evidence/reports/policy_ablation_report.json b/docs/results/final_submission_evidence/reports/policy_ablation_report.json
new file mode 100644
index 0000000000000000000000000000000000000000..1f7ff7041000e91dba36a272071c39960c890883
--- /dev/null
+++ b/docs/results/final_submission_evidence/reports/policy_ablation_report.json
@@ -0,0 +1,150 @@
+{
+  "status": "ok",
+  "ablations": {
+    "bandit_only": {
+      "avg_reward": 0.779625,
+      "legality_rate": 1.0,
+      "severe_violation_rate": 0.0,
+      "abstention_rate": 0.0,
+      "avg_episode_length": 2.8125,
+      "success_rate": 0.0,
+      "avg_burden_delta": 0.0,
+      "avg_safety_delta": 0.483125,
+      "avg_dosing_quality": 0.75,
+      "avg_process_fidelity": 0.9056250000000008,
+      "exploit_detection_count": 2.0,
+      "timeout_rate": 0.0,
+      "failure_visible_rate": 0.0625,
+      "avg_invalid_actions": 0.0625,
+      "reward_columns": {
+        "format_compliance_score": 0.9989999999999996,
+        "candidate_alignment_score": 0.9989999999999996,
+        "legality_score": 0.9989999999999996,
+        "safety_delta_score": 0.483125,
+        "burden_improvement_score": 0.5,
+        "disease_stability_score": 0.8999999999999995,
+        "dosing_quality_score": 0.75,
+        "abstention_quality_score": 0.5600000000000002,
+        "efficiency_score": 0.5855625,
+        "process_fidelity_score": 0.9056250000000008,
+        "explanation_grounding_score": 0.8000000000000004,
+        "anti_cheat_score": 0.9366249999999997,
+        "uncertainty_calibration_score": 0.8531250000000004
+      },
+      "primary_reward_channels": {
+        "safety_legality": 0.9469062499999998,
+        "clinical_improvement": 0.6273749999999997,
+        "dosing_quality": 0.6550000000000001,
+        "process_integrity": 0.8225937500000001
+      },
+      "policy_stack": "bandit-only",
+      "failure_mining": {
+        "total_rows": 32,
+        "failure_rows": 2,
+        "top_failure_reasons": [
+          {
+            "reason": "repeated_action_loop",
+            "count": 2
+          }
+        ]
+      }
+    },
+    "llm_only": {
+      "avg_reward": 0.7723913043478261,
+      "legality_rate": 1.0,
+      "severe_violation_rate": 0.0,
+      "abstention_rate": 0.0,
+      "avg_episode_length": 1.9565217391304348,
+      "success_rate": 0.0,
+      "avg_burden_delta": 0.0,
+      "avg_safety_delta": 0.4882608695652174,
+      "avg_dosing_quality": 0.75,
+      "avg_process_fidelity": 0.9000000000000005,
+      "exploit_detection_count": 7.0,
+      "timeout_rate": 0.0,
+      "failure_visible_rate": 0.30434782608695654,
+      "avg_invalid_actions": 0.30434782608695654,
+      "reward_columns": {
+        "format_compliance_score": 0.9989999999999999,
+        "candidate_alignment_score": 0.9989999999999999,
+        "legality_score": 0.9989999999999999,
+        "safety_delta_score": 0.4882608695652174,
+        "burden_improvement_score": 0.5,
+        "disease_stability_score": 0.8999999999999998,
+        "dosing_quality_score": 0.75,
+        "abstention_quality_score": 0.5600000000000004,
+        "efficiency_score": 0.7027826086956522,
+        "process_fidelity_score": 0.9000000000000005,
+        "explanation_grounding_score": 0.8000000000000003,
+        "anti_cheat_score": 0.6952608695652175,
+        "uncertainty_calibration_score": 0.8482608695652176
+      },
+      "primary_reward_channels": {
+        "safety_legality": 0.8853478260869562,
+        "clinical_improvement": 0.6290869565217388,
+        "dosing_quality": 0.6549999999999998,
+        "process_integrity": 0.8504782608695656
+      },
+      "policy_stack": "llm-only",
+      "failure_mining": {
+        "total_rows": 23,
+        "failure_rows": 7,
+        "top_failure_reasons": [
+          {
+            "reason": "repeated_action_loop",
+            "count": 7
+          }
+        ]
+      }
+    },
+    "llm_bandit": {
+      "avg_reward": 0.7647391304347826,
+      "legality_rate": 1.0,
+      "severe_violation_rate": 0.0,
+      "abstention_rate": 0.0,
+      "avg_episode_length": 1.9565217391304348,
+      "success_rate": 0.0,
+      "avg_burden_delta": 0.0,
+      "avg_safety_delta": 0.48982608695652174,
+      "avg_dosing_quality": 0.717391304347826,
+      "avg_process_fidelity": 0.9000000000000005,
+      "exploit_detection_count": 7.0,
+      "timeout_rate": 0.0,
+      "failure_visible_rate": 0.30434782608695654,
+      "avg_invalid_actions": 0.30434782608695654,
+      "reward_columns": {
+        "format_compliance_score": 0.9989999999999999,
+        "candidate_alignment_score": 0.9989999999999999,
+        "legality_score": 0.9989999999999999,
+        "safety_delta_score": 0.48982608695652174,
+        "burden_improvement_score": 0.5043478260869565,
+        "disease_stability_score": 0.8582608695652173,
+        "dosing_quality_score": 0.717391304347826,
+        "abstention_quality_score": 0.5600000000000004,
+        "efficiency_score": 0.7027826086956522,
+        "process_fidelity_score": 0.9000000000000005,
+        "explanation_grounding_score": 0.8000000000000003,
+        "anti_cheat_score": 0.6952608695652175,
+        "uncertainty_calibration_score": 0.8126086956521739
+      },
+      "primary_reward_channels": {
+        "safety_legality": 0.8765217391304347,
+        "clinical_improvement": 0.6171739130434781,
+        "dosing_quality": 0.6386956521739129,
+        "process_integrity": 0.8504782608695656
+      },
+      "policy_stack": "llm+bandit",
+      "failure_mining": {
+        "total_rows": 23,
+        "failure_rows": 7,
+        "top_failure_reasons": [
+          {
+            "reason": "repeated_action_loop",
+            "count": 7
+          }
+        ]
+      }
+    }
+  },
+  "source": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_ablation_report.json"
+}
diff --git a/docs/results/final_submission_evidence/reports/postsave_inference_grpo.json b/docs/results/final_submission_evidence/reports/postsave_inference_grpo.json
new file mode 100644
index 0000000000000000000000000000000000000000..6f146ec46e61500fb1904fe354c75dfb860c0700
--- /dev/null
+++ b/docs/results/final_submission_evidence/reports/postsave_inference_grpo.json
@@ -0,0 +1,71 @@
+{
+  "status": "ok",
+  "model_source": "adapter",
+  "model_load_error": "",
+  "samples": 5,
+  "valid_rate": 1.0,
+  "avg_env_reward": 0.726,
+  "avg_latency_seconds": 3.681,
+  "results": [
+    {
+      "idx": 0,
+      "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8000\", \"candidate_ids\": [\"cand_01\", \"cand_02\", \"cand_03\", \"cand_04\", \"cand_05\", \"cand_08\", \"cand_09\", \"cand_10\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
+      "completion": "{\"candidate_id\": \"cand_01\", \"rationale\": \"The patient is a 67-year-old male with a history of hypertension, hyperlipidemia, and type 2 diabetes. He has been on metformin for 10 years and lisinopril for 5 years. He has no significant past medical history. He is a current smoker and drinks",
+      "candidate_id": "cand_01",
+      "selected_candidate": "cand_01",
+      "env_reward": 0.717,
+      "latency_seconds": 3.941,
+      "done": true,
+      "valid": true,
+      "termination_reason": "exploit_detection"
+    },
+    {
+      "idx": 1,
+      "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8001\", \"candidate_ids\": [\"cand_01\", \"cand_02\", \"cand_03\", \"cand_05\", \"cand_08\", \"cand_09\", \"cand_10\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
+      "completion": "{\"candidate_id\": \"cand_01\", \"rationale\": \"The patient is a 46-year-old female with a history of hypertension, hyperlipidemia, and type 2 diabetes. She has been on metformin for her diabetes and lisinopril for her hypertension. The patient is currently being evaluated for possible coronary artery disease (CAD) due to symptoms of",
+      "candidate_id": "cand_01",
+      "selected_candidate": "cand_01",
+      "env_reward": 0.703,
+      "latency_seconds": 3.634,
+      "done": true,
+      "valid": true,
+      "termination_reason": "exploit_detection"
+    },
+    {
+      "idx": 2,
+      "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8002\", \"candidate_ids\": [\"cand_07\", \"cand_01\", \"cand_02\", \"cand_03\", \"cand_04\", \"cand_08\", \"cand_09\", \"cand_10\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
+      "completion": "{\"candidate_id\": \"cand_01\", \"rationale\": \"The patient is a 65 year old male with a history of hypertension, hyperlipidemia, and type 2 diabetes. He has been on metformin for 10 years and lisinopril for 5 years. He has not had any recent hospitalizations or emergency department visits. His most",
+      "candidate_id": "cand_01",
+      "selected_candidate": "cand_01",
+      "env_reward": 0.717,
+      "latency_seconds": 3.636,
+      "done": true,
+      "valid": true,
+      "termination_reason": "exploit_detection"
+    },
+    {
+      "idx": 3,
+      "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8003\", \"candidate_ids\": [\"cand_01\", \"cand_02\", \"cand_03\", \"cand_04\", \"cand_05\", \"cand_08\", \"cand_09\", \"cand_10\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
+      "completion": "{\"candidate_id\": \"cand_01\", \"rationale\": \"The patient is a 67 year old male with a history of hypertension, hyperlipidemia, and type 2 diabetes. He has been on metformin for 10 years and lisinopril for 5 years. He has not had any recent hospitalizations or emergency department visits. His most",
+      "candidate_id": "cand_01",
+      "selected_candidate": "cand_01",
+      "env_reward": 0.777,
+      "latency_seconds": 3.548,
+      "done": false,
+      "valid": true,
+      "termination_reason": "ongoing"
+    },
+    {
+      "idx": 4,
+      "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8004\", \"candidate_ids\": [\"cand_01\", \"cand_02\", \"cand_03\", \"cand_04\", \"cand_08\", \"cand_09\", \"cand_10\", \"cand_06\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
+      "completion": "{\"candidate_id\": \"cand_01\", \"rationale\": \"The patient is a 57 year old male with a history of hypertension, hyperlipidemia, and type 2 diabetes. He has been on metformin for 10 years and lisinopril for 5 years. He has not had any recent hospitalizations or surgeries. His most recent A",
+      "candidate_id": "cand_01",
+      "selected_candidate": "cand_01",
+      "env_reward": 0.717,
+      "latency_seconds": 3.647,
+      "done": true,
+      "valid": true,
+      "termination_reason": "exploit_detection"
+    }
+  ]
+}
\ No newline at end of file
diff --git a/docs/results/final_submission_evidence/reports/submission_summary.json b/docs/results/final_submission_evidence/reports/submission_summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..1af4d87d30f0dd4625c00e16b875bcd952d16459
--- /dev/null
+++ b/docs/results/final_submission_evidence/reports/submission_summary.json
@@ -0,0 +1,196 @@
+{
+  "status": "ok",
+  "generated_at_unix": 1777188944.32916,
+  "models": [
+    {
+      "run_id": "qwen-qwen2-5-0-5b-instruct",
+      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
+      "label": "Qwen 0.5B",
+      "statuses": {
+        "sft_training": "artifact_available",
+        "sft_postsave_inference": "artifact_available",
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
+      },
+      "metrics": {
+        "sft_train_loss": 0.19233327957964502,
+        "sft_train_runtime": 234.6302,
+        "sft_examples_used": 2000,
+        "sft_history_steps": 2001,
+        "sft_first_loss": 3.0856,
+        "sft_last_loss": 0.0626,
+        "sft_best_loss": 0.0057,
+        "sft_last_token_accuracy": 0.9717137813568115,
+        "sft_valid_rate": 1.0,
+        "sft_avg_env_reward": 0.726,
+        "sft_avg_latency_seconds": 1.839,
+        "grpo_avg_reward": null,
+        "grpo_history_steps": 0,
+        "grpo_valid_rate": null,
+        "grpo_avg_env_reward": null,
+        "grpo_avg_latency_seconds": null
+      },
+      "files": {
+        "run_metadata.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-0-5b-instruct/run_metadata.json",
+        "sft_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-0-5b-instruct/sft_trl_run.json",
+        "sft_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-0-5b-instruct/sft_history.json",
+        "postsave_inference_sft.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-0-5b-instruct/postsave_inference_sft.json",
+        "grpo_trl_run.json": "",
+        "grpo_history.json": "",
+        "grpo_reward_components.jsonl": "",
+        "postsave_inference_grpo.json": "",
+        "grpo_ablation_report.json": "",
+        "error.json": ""
+      }
+    },
+    {
+      "run_id": "qwen-qwen2-5-1-5b-instruct",
+      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
+      "label": "Qwen 1.5B",
+      "statuses": {
+        "sft_training": "artifact_available",
+        "sft_postsave_inference": "artifact_available",
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
+      },
+      "metrics": {
+        "sft_train_loss": 0.11515871361242898,
+        "sft_train_runtime": 483.7085,
+        "sft_examples_used": 2000,
+        "sft_history_steps": 4001,
+        "sft_first_loss": 2.9686,
+        "sft_last_loss": 0.0681,
+        "sft_best_loss": 0.0009,
+        "sft_last_token_accuracy": 0.9726027250289917,
+        "sft_valid_rate": 1.0,
+        "sft_avg_env_reward": 0.726,
+        "sft_avg_latency_seconds": 2.158,
+        "grpo_avg_reward": null,
+        "grpo_history_steps": 0,
+        "grpo_valid_rate": null,
+        "grpo_avg_env_reward": null,
+        "grpo_avg_latency_seconds": null
+      },
+      "files": {
+        "run_metadata.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-1-5b-instruct/run_metadata.json",
+        "sft_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-1-5b-instruct/sft_trl_run.json",
+        "sft_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-1-5b-instruct/sft_history.json",
+        "postsave_inference_sft.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-1-5b-instruct/postsave_inference_sft.json",
+        "grpo_trl_run.json": "",
+        "grpo_history.json": "",
+        "grpo_reward_components.jsonl": "",
+        "postsave_inference_grpo.json": "",
+        "grpo_ablation_report.json": "",
+        "error.json": ""
+      }
+    },
+    {
+      "run_id": "qwen-qwen2-5-3b-instruct",
+      "model_id": "Qwen/Qwen2.5-3B-Instruct",
+      "label": "Qwen 3B",
+      "statuses": {
+        "sft_training": "artifact_available",
+        "sft_postsave_inference": "artifact_available",
+        "grpo_training": "artifact_available",
+        "grpo_postsave_inference": "artifact_available",
+        "policy_ablation": "artifact_available"
+      },
+      "metrics": {
+        "sft_train_loss": 0.15688225453009363,
+        "sft_train_runtime": 715.2908,
+        "sft_examples_used": 2000,
+        "sft_history_steps": 2001,
+        "sft_first_loss": 3.5687,
+        "sft_last_loss": 0.054,
+        "sft_best_loss": 0.0022,
+        "sft_last_token_accuracy": 0.9750415682792664,
+        "sft_valid_rate": 1.0,
+        "sft_avg_env_reward": 0.781,
+        "sft_avg_latency_seconds": 2.863,
+        "grpo_avg_reward": 0.767,
+        "grpo_history_steps": 2001,
+        "grpo_valid_rate": 1.0,
+        "grpo_avg_env_reward": 0.726,
+        "grpo_avg_latency_seconds": 3.681
+      },
+      "files": {
+        "run_metadata.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/run_metadata.json",
+        "sft_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_trl_run.json",
+        "sft_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_history.json",
+        "postsave_inference_sft.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/postsave_inference_sft.json",
+        "grpo_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_trl_run.json",
+        "grpo_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_history.json",
+        "grpo_reward_components.jsonl": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl",
+        "postsave_inference_grpo.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/postsave_inference_grpo.json",
+        "grpo_ablation_report.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_ablation_report.json",
+        "error.json": ""
+      }
+    }
+  ],
+  "artifact_repo": {
+    "repo_id": "adithya9903/polyguard-openenv-training-3b-artifacts",
+    "status": "error",
+    "files": [],
+    "error": "(MaxRetryError('HTTPSConnectionPool(host=\\'huggingface.co\\', port=443): Max retries exceeded with url: /api/models/adithya9903/polyguard-openenv-training-3b-artifacts/tree/main?recursive=True&expand=False (Caused by NameResolutionError(\"HTTPSConnection(host=\\'huggingface.co\\', port=443): Failed to resolve \\'huggingface.co\\' ([Errno 8] nodename nor servname provided, or not known)\"))'), '(Request ID: e2bfdc8f-d828-47fb-88e5-d9e657891fc3)')"
+  },
+  "remote_snapshot_used": "",
+  "training_space_status": {
+    "status": "running",
+    "source": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/reports/hf_training_status.json",
+    "completed_run_ids": []
+  },
+  "stage_records": [
+    {
+      "run_id": "qwen-qwen2-5-3b-instruct",
+      "model_id": "Qwen/Qwen2.5-3B-Instruct",
+      "label": "Qwen 3B",
+      "stage": "sft_training",
+      "returncode": 0,
+      "elapsed_seconds": 737.28,
+      "completed": true
+    }
+  ],
+  "charts": {
+    "qwen_0_5b_sft_training_loss": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_training_loss.png",
+    "qwen_0_5b_sft_token_accuracy": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_token_accuracy.png",
+    "qwen_0_5b_sft_learning_rate": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_learning_rate.png",
+    "qwen_1_5b_sft_training_loss": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_training_loss.png",
+    "qwen_1_5b_sft_token_accuracy": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_token_accuracy.png",
+    "qwen_1_5b_sft_learning_rate": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_learning_rate.png",
+    "qwen-qwen2-5-3b-instruct_sft_training_loss": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_training_loss.png",
+    "qwen-qwen2-5-3b-instruct_sft_token_accuracy": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_token_accuracy.png",
+    "qwen-qwen2-5-3b-instruct_sft_learning_rate": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_learning_rate.png",
+    "qwen_0_5b_vs_1_5b_sft_loss_comparison": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_vs_1_5b_sft_loss_comparison.png",
+    "qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png",
+    "qwen_0_5b_1_5b_final_sft_train_loss": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_final_sft_train_loss.png",
+    "qwen_0_5b_1_5b_postsave_reward": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_postsave_reward.png",
+    "qwen_0_5b_1_5b_postsave_latency": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_postsave_latency.png",
+    "qwen_0_5b_1_5b_sft_runtime": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_sft_runtime.png",
+    "qwen_0_5b_1_5b_remote_completed_stage_durations": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_remote_completed_stage_durations.png",
+    "policy_ablation_avg_reward": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_avg_reward.png",
+    "policy_ablation_legality": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_legality.png",
+    "policy_ablation_exploit_detection": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_exploit_detection.png",
+    "reward_component_bars": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/reward_component_bars.png",
+    "primary_reward_channel_bars": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/primary_reward_channel_bars.png",
+    "basic_llm_vs_full_pipeline_reward": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_reward.png",
+    "basic_llm_vs_full_pipeline_legality": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_legality.png",
+    "basic_llm_vs_full_pipeline_latency": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_latency.png",
+    "basic_llm_vs_full_pipeline_reward_delta_by_seed": "outputs/plots/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_reward_delta_by_seed.png"
+  },
+  "pending_artifacts": [
+    "Qwen 0.5B grpo_history.json: pending_artifact_upload",
+    "Qwen 0.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 0.5B grpo_training: not_seen_in_status",
+    "Qwen 0.5B policy_ablation: not_seen_in_status",
+    "Qwen 0.5B postsave_inference_grpo.json: pending_artifact_upload",
+    "Qwen 1.5B grpo_history.json: pending_artifact_upload",
+    "Qwen 1.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 1.5B grpo_training: not_seen_in_status",
+    "Qwen 1.5B policy_ablation: not_seen_in_status",
+    "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload"
+  ],
+  "reward_validation_errors": [],
+  "primary_judge": "PolyGuard verifier/reward system"
+}
diff --git a/docs/results/grpo_reward_curves.png b/docs/results/grpo_reward_curves.png
index b8b1c8d550e72424ffeef18cd8fff38ce8c91cab..e65d51f9fa5b56301ea2a14915aaf2b240f1e5ea 100644
Binary files a/docs/results/grpo_reward_curves.png and b/docs/results/grpo_reward_curves.png differ
diff --git a/docs/results/hf_sweep_summary.json b/docs/results/hf_sweep_summary.json
index d18255ad3734ce2a82e317aa242155c974af0ebc..7ca87930420f7cd34d083aee5fc0ab0257696bc5 100644
--- a/docs/results/hf_sweep_summary.json
+++ b/docs/results/hf_sweep_summary.json
@@ -83,8 +83,8 @@
       "error": "",
       "sft_backend": "trl_transformers",
       "sft_examples": 2000,
-      "sft_train_loss": 0.18184852770145518,
-      "sft_runtime": 372.1845,
+      "sft_train_loss": 0.15688225453009363,
+      "sft_runtime": 715.2908,
       "grpo_backend": "",
       "grpo_records": 0,
       "grpo_avg_reward": 0.762,
diff --git a/docs/results/hf_training_status.json b/docs/results/hf_training_status.json
index 4b2f082ab40f9d3104defeeaa3585fe6a2325bce..83777010722440527f39cbabe64fc6b21b341ecb 100644
--- a/docs/results/hf_training_status.json
+++ b/docs/results/hf_training_status.json
@@ -50,6 +50,53 @@
       ],
       "returncode": 0,
       "elapsed_seconds": 737.28
+    },
+    {
+      "args": [
+        "python",
+        "scripts/train_grpo_trl.py",
+        "--model-id",
+        "Qwen/Qwen2.5-3B-Instruct",
+        "--prompts-path",
+        "data/processed/training_corpus_grpo_prompts.jsonl",
+        "--output-dir",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct",
+        "--report-path",
+        "outputs/reports/sweeps/qwen-qwen2-5-3b-instruct/grpo_trl_run.json",
+        "--max-prompts",
+        "0",
+        "--max-steps",
+        "0",
+        "--epochs",
+        "1.0",
+        "--batch-size",
+        "2",
+        "--grad-accum",
+        "1",
+        "--num-generations",
+        "2",
+        "--max-prompt-length",
+        "384",
+        "--max-completion-length",
+        "64",
+        "--learning-rate",
+        "1e-06",
+        "--use-unsloth"
+      ],
+      "returncode": 0,
+      "elapsed_seconds": 6885.399
+    },
+    {
+      "args": [
+        "python",
+        "scripts/merge_adapters_safe.py",
+        "--adapter-dir",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/sft_adapter",
+        "--output-dir",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/merged"
+      ],
+      "returncode": 0,
+      "elapsed_seconds": 15.74
     }
   ],
   "artifact_repo_id": "adithya9903/polyguard-openenv-training-3b-artifacts",
diff --git a/docs/results/inference_latency_validity.png b/docs/results/inference_latency_validity.png
index 0fb4d13ec904f9d31e23bc155fe571425145913c..1037053ea236e314bff051771b9a686a294aa9a4 100644
Binary files a/docs/results/inference_latency_validity.png and b/docs/results/inference_latency_validity.png differ
diff --git a/docs/results/inference_validity_reward.png b/docs/results/inference_validity_reward.png
index 635d3af233d076393ea09b507584d2f51c07b5a1..e8dce9f4126e6e140650f1b0f29ad45975c93bc4 100644
Binary files a/docs/results/inference_validity_reward.png and b/docs/results/inference_validity_reward.png differ
diff --git a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/artifact_repo_listing.json b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/artifact_repo_listing.json
index 1c1b2faf9c8218a4e723aaac00e7a7f2cddf0538..99572004cc6cb602f33743e8e47c4177ebe1434d 100644
--- a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/artifact_repo_listing.json
+++ b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/artifact_repo_listing.json
@@ -1,9 +1,6 @@
 {
   "repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
-  "status": "pending_artifact_upload",
-  "files": [
-    ".gitattributes"
-  ],
-  "meaningful_file_count": 0,
+  "status": "skipped_local_only",
+  "files": [],
   "error": ""
 }
diff --git a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/basic_llm_vs_polyguard_report.json b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/basic_llm_vs_polyguard_report.json
index 32d4f98fc269daee5221d67244ea0c995322747f..5c1f19680016127e86036af1db313744773c0d37 100644
--- a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/basic_llm_vs_polyguard_report.json
+++ b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/basic_llm_vs_polyguard_report.json
@@ -24,7 +24,7 @@
     "sft_policy": {
       "episodes": 8,
       "avg_reward": 0.818,
-      "avg_latency_seconds": 0.0012,
+      "avg_latency_seconds": 0.0013,
       "legality_rate": 1.0,
       "exploit_or_failure_rate": 0.0,
       "candidate_diversity": 2
@@ -32,7 +32,7 @@
     "full_polyguard_pipeline": {
       "episodes": 8,
       "avg_reward": 0.805,
-      "avg_latency_seconds": 0.3876,
+      "avg_latency_seconds": 0.3727,
       "legality_rate": 1.0,
       "exploit_or_failure_rate": 0.0,
       "candidate_diversity": 2
diff --git a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/chart_index.json b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/chart_index.json
index 32f77f4e7faf744f163b565a652665a28ca25d7a..e8d5da0a1ee822b9de986c49730e82ecc80ccd69 100644
--- a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/chart_index.json
+++ b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/chart_index.json
@@ -1,77 +1,77 @@
 [
   {
     "id": "qwen_0_5b_sft_training_loss",
-    "title": "Qwen 0.5B SFT Training Loss",
+    "title": "Qwen 0.5B + Bandits SFT Training Loss",
     "category": "training_loss",
     "path": "charts/training_loss/qwen_0_5b_sft_training_loss.png",
     "source": "charts/generated/qwen_0_5b_sft_training_loss.png"
   },
   {
     "id": "qwen_1_5b_sft_training_loss",
-    "title": "Qwen 1.5B SFT Training Loss",
+    "title": "Qwen 1.5B + Bandits SFT Training Loss",
     "category": "training_loss",
     "path": "charts/training_loss/qwen_1_5b_sft_training_loss.png",
     "source": "charts/generated/qwen_1_5b_sft_training_loss.png"
   },
   {
     "id": "qwen_0_5b_vs_1_5b_sft_loss_comparison",
-    "title": "Qwen 0.5B vs 1.5B SFT Loss",
+    "title": "Qwen 0.5B + Bandits vs 1.5B + Bandits SFT Loss",
     "category": "training_loss",
     "path": "charts/training_loss/qwen_0_5b_vs_1_5b_sft_loss_comparison.png",
     "source": "charts/generated/qwen_0_5b_vs_1_5b_sft_loss_comparison.png"
   },
   {
     "id": "qwen_0_5b_vs_1_5b_token_accuracy",
-    "title": "Qwen 0.5B vs 1.5B Token Accuracy",
+    "title": "Qwen 0.5B + Bandits vs 1.5B + Bandits Token Accuracy",
     "category": "training_accuracy",
     "path": "charts/training_accuracy/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png",
     "source": "charts/generated/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png"
   },
   {
     "id": "qwen_sft_runtime",
-    "title": "Qwen SFT Runtime",
+    "title": "Qwen + Bandits SFT Runtime",
     "category": "training_runtime",
     "path": "charts/training_runtime/qwen_0_5b_1_5b_sft_runtime.png",
     "source": "charts/generated/qwen_0_5b_1_5b_sft_runtime.png"
   },
   {
     "id": "sft_vs_grpo_reward",
-    "title": "SFT Baseline vs GRPO Reward",
+    "title": "SFT Baseline vs GRPO + Bandits Reward",
     "category": "sft_vs_grpo",
     "path": "charts/sft_vs_grpo/sft_vs_grpo_reward.png",
     "source": "charts/local_available_combined/sft_vs_grpo_reward.png"
   },
   {
     "id": "grpo_reward_curves",
-    "title": "GRPO Reward Curves",
+    "title": "GRPO + Bandits Reward Curves",
     "category": "grpo_training",
     "path": "charts/grpo_training/grpo_reward_curves.png",
     "source": "charts/local_available_combined/grpo_reward_curves.png"
   },
   {
     "id": "qwen_model_sft_loss",
-    "title": "Qwen Model SFT Loss Comparison",
+    "title": "Qwen + Bandits Model SFT Loss Comparison",
     "category": "model_comparison",
     "path": "charts/model_comparison/qwen_model_sft_loss.png",
     "source": "charts/local_available_combined/qwen_model_sft_loss.png"
   },
   {
     "id": "qwen_model_sft_reward",
-    "title": "Qwen Model SFT Reward Comparison",
+    "title": "Qwen + Bandits Model SFT Reward Comparison",
     "category": "model_comparison",
     "path": "charts/model_comparison/qwen_model_sft_reward.png",
     "source": "charts/local_available_combined/qwen_model_sft_reward.png"
   },
   {
     "id": "qwen_model_grpo_reward",
-    "title": "Qwen Model GRPO Reward Comparison",
+    "title": "Qwen + Bandits Model GRPO Reward Comparison",
     "category": "model_comparison",
     "path": "charts/model_comparison/qwen_model_grpo_reward.png",
     "source": "charts/local_available_combined/qwen_model_grpo_reward.png"
   },
   {
     "id": "policy_ablation_avg_reward",
-    "title": "Without Bandit vs With Bandit Reward",
+    "title": "Without Bandits vs With Bandits Reward",
     "category": "policy_ablation",
     "path": "charts/policy_ablation/policy_ablation_avg_reward.png",
     "source": "charts/generated/policy_ablation_avg_reward.png"
@@ -85,28 +85,28 @@
   },
   {
     "id": "policy_stack_avg_reward",
-    "title": "Policy Stack Average Reward",
+    "title": "Without Bandits vs With Bandits Policy Stack Reward",
     "category": "policy_ablation",
     "path": "charts/policy_ablation/policy_stack_avg_reward.png",
     "source": "charts/local_available_combined/policy_stack_avg_reward.png"
   },
   {
     "id": "basic_llm_vs_full_pipeline_reward",
-    "title": "Basic LLM vs Full PolyGuard Reward",
+    "title": "Basic LLM vs Full PolyGuard + Bandits Reward",
     "category": "product_over_basic_llm",
     "path": "charts/product_over_basic_llm/basic_llm_vs_full_pipeline_reward.png",
     "source": "charts/generated/basic_llm_vs_full_pipeline_reward.png"
   },
   {
     "id": "basic_llm_vs_full_pipeline_legality",
-    "title": "Basic LLM vs Full PolyGuard Legality",
+    "title": "Basic LLM vs Full PolyGuard + Bandits Legality",
     "category": "product_over_basic_llm",
     "path": "charts/product_over_basic_llm/basic_llm_vs_full_pipeline_legality.png",
     "source": "charts/generated/basic_llm_vs_full_pipeline_legality.png"
   },
   {
     "id": "basic_llm_vs_full_pipeline_delta",
-    "title": "Pipeline Minus Basic Reward By Seed",
+    "title": "PolyGuard + Bandits Minus Basic Reward By Seed",
     "category": "product_over_basic_llm",
     "path": "charts/product_over_basic_llm/basic_llm_vs_full_pipeline_reward_delta_by_seed.png",
     "source": "charts/generated/basic_llm_vs_full_pipeline_reward_delta_by_seed.png"
diff --git a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/evidence_matrix.json b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/evidence_matrix.json
index 4efbe38b1f2c0cb35d1ac78e7da183abe1d9e7d8..156f7a430ef03737a24ab1953250db16965bf9e2 100644
--- a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/evidence_matrix.json
+++ b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/evidence_matrix.json
@@ -14,14 +14,14 @@
   },
   "pending_artifacts": [
     "Qwen 0.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 0.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 0.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 0.5B grpo_training: not_seen_in_status",
+    "Qwen 0.5B policy_ablation: not_seen_in_status",
     "Qwen 0.5B postsave_inference_grpo.json: pending_artifact_upload",
     "Qwen 1.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 1.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 1.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 1.5B grpo_training: not_seen_in_status",
+    "Qwen 1.5B policy_ablation: not_seen_in_status",
     "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload"
   ]
 }
diff --git a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/hf_status_snapshot.json b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/hf_status_snapshot.json
index adec7032d7fae6ba4ca73ed347e0176c38aa961f..146b6639d2c42f8978b6cd32d4f5cf2a4941948b 100644
--- a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/hf_status_snapshot.json
+++ b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/hf_status_snapshot.json
@@ -1,6 +1,6 @@
 {
   "status": "running",
-  "started_at": 1777162756.623835,
+  "started_at": 1777180786.0648105,
   "finished_at": null,
   "commands": [
     {
@@ -9,7 +9,7 @@
         "scripts/bootstrap_data.py"
       ],
       "returncode": 0,
-      "elapsed_seconds": 0.577
+      "elapsed_seconds": 0.507
     },
     {
       "args": [
@@ -22,255 +22,7 @@
         "--with-hf"
       ],
       "returncode": 0,
-      "elapsed_seconds": 3.86
-    },
-    {
-      "args": [
-        "python",
-        "scripts/train_sft_trl.py",
-        "--model-id",
-        "Qwen/Qwen2.5-0.5B-Instruct",
-        "--dataset-path",
-        "data/processed/training_corpus_sft.json",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct",
-        "--report-path",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/sft_trl_run.json",
-        "--epochs",
-        "2",
-        "--max-steps",
-        "0",
-        "--batch-size",
-        "2",
-        "--max-seq-len",
-        "512",
-        "--learning-rate",
-        "2e-05",
-        "--use-unsloth"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 257.387
-    },
-    {
-      "args": [
-        "python",
-        "scripts/train_grpo_trl.py",
-        "--model-id",
-        "Qwen/Qwen2.5-0.5B-Instruct",
-        "--prompts-path",
-        "data/processed/training_corpus_grpo_prompts.jsonl",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct",
-        "--report-path",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/grpo_trl_run.json",
-        "--max-prompts",
-        "0",
-        "--max-steps",
-        "0",
-        "--epochs",
-        "1.0",
-        "--batch-size",
-        "2",
-        "--grad-accum",
-        "1",
-        "--num-generations",
-        "2",
-        "--max-prompt-length",
-        "384",
-        "--max-completion-length",
-        "64",
-        "--learning-rate",
-        "1e-06",
-        "--use-unsloth"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 4230.645
-    },
-    {
-      "args": [
-        "python",
-        "scripts/merge_adapters_safe.py",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/sft_adapter",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/merged"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 7.303
-    },
-    {
-      "args": [
-        "python",
-        "scripts/test_inference_postsave.py",
-        "--samples",
-        "5",
-        "--base-model",
-        "Qwen/Qwen2.5-0.5B-Instruct",
-        "--merged-model",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/merged",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/sft_adapter",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/postsave_inference_sft.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 15.201
-    },
-    {
-      "args": [
-        "python",
-        "scripts/test_inference_postsave.py",
-        "--samples",
-        "5",
-        "--base-model",
-        "Qwen/Qwen2.5-0.5B-Instruct",
-        "--merged-model",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/missing_merged_grpo",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/grpo_adapter",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/postsave_inference_grpo.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 18.461
-    },
-    {
-      "args": [
-        "python",
-        "scripts/evaluate_policy_ablations.py",
-        "--episodes",
-        "8",
-        "--checkpoint-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/grpo_ablation_report.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 3.989
-    },
-    {
-      "args": [
-        "python",
-        "scripts/train_sft_trl.py",
-        "--model-id",
-        "Qwen/Qwen2.5-1.5B-Instruct",
-        "--dataset-path",
-        "data/processed/training_corpus_sft.json",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct",
-        "--report-path",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/sft_trl_run.json",
-        "--epochs",
-        "2",
-        "--max-steps",
-        "0",
-        "--batch-size",
-        "2",
-        "--max-seq-len",
-        "512",
-        "--learning-rate",
-        "2e-05",
-        "--use-unsloth"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 454.278
-    },
-    {
-      "args": [
-        "python",
-        "scripts/train_grpo_trl.py",
-        "--model-id",
-        "Qwen/Qwen2.5-1.5B-Instruct",
-        "--prompts-path",
-        "data/processed/training_corpus_grpo_prompts.jsonl",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct",
-        "--report-path",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/grpo_trl_run.json",
-        "--max-prompts",
-        "0",
-        "--max-steps",
-        "0",
-        "--epochs",
-        "1.0",
-        "--batch-size",
-        "2",
-        "--grad-accum",
-        "1",
-        "--num-generations",
-        "2",
-        "--max-prompt-length",
-        "384",
-        "--max-completion-length",
-        "64",
-        "--learning-rate",
-        "1e-06",
-        "--use-unsloth"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 5118.654
-    },
-    {
-      "args": [
-        "python",
-        "scripts/merge_adapters_safe.py",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/sft_adapter",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/merged"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 10.6
-    },
-    {
-      "args": [
-        "python",
-        "scripts/test_inference_postsave.py",
-        "--samples",
-        "5",
-        "--base-model",
-        "Qwen/Qwen2.5-1.5B-Instruct",
-        "--merged-model",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/merged",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/sft_adapter",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/postsave_inference_sft.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 17.128
-    },
-    {
-      "args": [
-        "python",
-        "scripts/test_inference_postsave.py",
-        "--samples",
-        "5",
-        "--base-model",
-        "Qwen/Qwen2.5-1.5B-Instruct",
-        "--merged-model",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/missing_merged_grpo",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/grpo_adapter",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/postsave_inference_grpo.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 21.528
-    },
-    {
-      "args": [
-        "python",
-        "scripts/evaluate_policy_ablations.py",
-        "--episodes",
-        "8",
-        "--checkpoint-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/grpo_ablation_report.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 4.001
+      "elapsed_seconds": 3.695
     },
     {
       "args": [
@@ -297,15 +49,13 @@
         "--use-unsloth"
       ],
       "returncode": 0,
-      "elapsed_seconds": 736.955
+      "elapsed_seconds": 737.28
     }
   ],
-  "artifact_repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
+  "artifact_repo_id": "adithya9903/polyguard-openenv-training-3b-artifacts",
+  "training_mode": "full",
   "model_sweep": [
-    "Qwen/Qwen2.5-0.5B-Instruct",
-    "Qwen/Qwen2.5-1.5B-Instruct",
     "Qwen/Qwen2.5-3B-Instruct"
   ],
-  "source": "https://thejackbright-polyguard-openenv-training-full.hf.space",
-  "log_tail": "\u2588\u2588\u2588\u2588\u2588\u258a| 1965/2000 [11:41<00:10,  3.22it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1966/2000 [11:42<00:11,  2.91it/s]\n                                                   \n{'loss': 0.0449, 'grad_norm': 0.8585970401763916, 'learning_rate': 3.7e-07, 'num_tokens': 1350951.0, 'mean_token_accuracy': 0.9767054915428162, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1966/2000 [11:42<00:11,  2.91it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1967/2000 [11:42<00:11,  2.85it/s]\n                                                   \n{'loss': 0.0518, 'grad_norm': 0.7478350400924683, 'learning_rate': 3.6e-07, 'num_tokens': 1351975.0, 'mean_token_accuracy': 0.9755381345748901, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1967/2000 [11:42<00:11,  2.85it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1968/2000 [11:42<00:11,  2.69it/s]\n                                                   \n{'loss': 0.0442, 'grad_norm': 0.8791924715042114, 'learning_rate': 3.5000000000000004e-07, 'num_tokens': 1352578.0, 'mean_token_accuracy': 0.9767054915428162, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1968/2000 [11:42<00:11,  2.69it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1969/2000 [11:43<00:11,  2.70it/s]\n                                                   \n{'loss': 0.0488, 'grad_norm': 0.6195839047431946, 'learning_rate': 3.4000000000000003e-07, 'num_tokens': 1353602.0, 'mean_token_accuracy': 0.9706457853317261, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1969/2000 [11:43<00:11,  2.70it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1970/2000 [11:43<00:09,  3.27it/s]\n                                                   \n{'loss': 0.0047, 'grad_norm': 0.8639671802520752, 'learning_rate': 3.3e-07, 'num_tokens': 1353784.0, 'mean_token_accuracy': 1.0, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1970/2000 [11:43<00:09,  3.27it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1971/2000 [11:43<00:07,  3.82it/s]\n                                                   \n{'loss': 0.0048, 'grad_norm': 0.8560010194778442, 'learning_rate': 3.2e-07, 'num_tokens': 1353966.0, 'mean_token_accuracy': 1.0, 'epoch': 1.97}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1971/2000 [11:43<00:07,  3.82it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1972/2000 [11:43<00:08,  3.41it/s]\n                                                   \n{'loss': 0.0382, 'grad_norm': 0.8542295694351196, 'learning_rate': 3.1000000000000005e-07, 'num_tokens': 1354990.0, 'mean_token_accuracy': 0.9823874831199646, 'epoch': 1.97}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1972/2000 [11:43<00:08,  3.41it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1973/2000 [11:44<00:08,  3.02it/s]\n                                                   \n{'loss': 0.033, 'grad_norm': 0.7632898688316345, 'learning_rate': 3.0000000000000004e-07, 'num_tokens': 1355593.0, 'mean_token_accuracy': 0.9833610653877258, 'epoch': 1.97}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1973/2000 [11:44<00:08,  3.02it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1974/2000 [11:44<00:08,  2.92it/s]\n                                                   \n{'loss': 0.0582, 'grad_norm': 0.7546073198318481, 'learning_rate': 2.9000000000000003e-07, 'num_tokens': 1356617.0, 'mean_token_accuracy': 0.9706457853317261, 'epoch': 1.97}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1974/2000 [11:44<00:08,  2.92it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1975/2000 [11:44<00:08,  2.85it/s]\n                                                   \n{'loss': 0.0607, 'grad_norm': 0.9100231528282166, 'learning_rate': 2.8e-07, 'num_tokens': 1357641.0, 'mean_token_accuracy': 0.9706457853317261, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1975/2000 [11:44<00:08,  2.85it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1976/2000 [11:45<00:08,  2.81it/s]\n                                                   \n{'loss': 0.0522, 'grad_norm': 0.9831849932670593, 'learning_rate': 2.7e-07, 'num_tokens': 1358665.0, 'mean_token_accuracy': 0.9726027250289917, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1976/2000 [11:45<00:08,  2.81it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1977/2000 [11:45<00:08,  2.67it/s]\n                                                   \n{'loss': 0.0455, 'grad_norm': 0.7770227789878845, 'learning_rate': 2.6e-07, 'num_tokens': 1359268.0, 'mean_token_accuracy': 0.9783693552017212, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1977/2000 [11:45<00:08,  2.67it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1978/2000 [11:46<00:08,  2.58it/s]\n                                                   \n{'loss': 0.043, 'grad_norm': 0.9285680055618286, 'learning_rate': 2.5000000000000004e-07, 'num_tokens': 1359871.0, 'mean_token_accuracy': 0.981697142124176, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1978/2000 [11:46<00:08,  2.58it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1979/2000 [11:46<00:08,  2.62it/s]\n                                                   \n{'loss': 0.0475, 'grad_norm': 0.725820004940033, 'learning_rate': 2.4000000000000003e-07, 'num_tokens': 1360895.0, 'mean_token_accuracy': 0.9784736037254333, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1979/2000 [11:46<00:08,  2.62it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1980/2000 [11:46<00:07,  2.54it/s]\n                                                   \n{'loss': 0.0523, 'grad_norm': 0.9508711099624634, 'learning_rate': 2.3000000000000002e-07, 'num_tokens': 1361498.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1980/2000 [11:46<00:07,  2.54it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1981/2000 [11:47<00:07,  2.49it/s]\n                                                   \n{'loss': 0.0461, 'grad_norm': 0.9076665639877319, 'learning_rate': 2.2e-07, 'num_tokens': 1362101.0, 'mean_token_accuracy': 0.980033278465271, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1981/2000 [11:47<00:07,  2.49it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1982/2000 [11:47<00:05,  3.07it/s]\n                                                   \n{'loss': 0.0049, 'grad_norm': 0.8733372092247009, 'learning_rate': 2.1000000000000003e-07, 'num_tokens': 1362283.0, 'mean_token_accuracy': 1.0, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1982/2000 [11:47<00:05,  3.07it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1983/2000 [11:47<00:06,  2.83it/s]\n                                                   \n{'loss': 0.0499, 'grad_norm': 1.0219769477844238, 'learning_rate': 2.0000000000000002e-07, 'num_tokens': 1362886.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1983/2000 [11:47<00:06,  2.83it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1984/2000 [11:48<00:05,  2.79it/s]\n                                                   \n{'loss': 0.047, 'grad_norm': 0.6855125427246094, 'learning_rate': 1.9e-07, 'num_tokens': 1363910.0, 'mean_token_accuracy': 0.9794520735740662, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1984/2000 [11:48<00:05,  2.79it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1985/2000 [11:48<00:05,  2.66it/s]\n                                                   \n{'loss': 0.053, 'grad_norm': 0.9592626094818115, 'learning_rate': 1.8e-07, 'num_tokens': 1364513.0, 'mean_token_accuracy': 0.9717137813568115, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1985/2000 [11:48<00:05,  2.66it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1986/2000 [11:49<00:05,  2.67it/s]\n                                                   \n{'loss': 0.0634, 'grad_norm': 0.9822715520858765, 'learning_rate': 1.7000000000000001e-07, 'num_tokens': 1365537.0, 'mean_token_accuracy': 0.9696673154830933, 'epoch': 1.99}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1986/2000 [11:49<00:05,  2.67it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1987/2000 [11:49<00:04,  3.24it/s]\n                                                   \n{'loss': 0.005, 'grad_norm': 0.9051101207733154, 'learning_rate': 1.6e-07, 'num_tokens': 1365719.0, 'mean_token_accuracy': 1.0, 'epoch': 1.99}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1987/2000 [11:49<00:04,  3.24it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1988/2000 [11:49<00:03,  3.06it/s]\n                                                   \n{'loss': 0.057, 'grad_norm': 0.7732815742492676, 'learning_rate': 1.5000000000000002e-07, 'num_tokens': 1366743.0, 'mean_token_accuracy': 0.9716242551803589, 'epoch': 1.99}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1988/2000 [11:49<00:03,  3.06it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1989/2000 [11:50<00:03,  2.82it/s]\n                                                   \n{'loss': 0.0488, 'grad_norm': 1.0130807161331177, 'learning_rate': 1.4e-07, 'num_tokens': 1367346.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 1.99}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1989/2000 [11:50<00:03,  2.82it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1990/2000 [11:50<00:03,  2.79it/s]\n                                                   \n{'loss': 0.0502, 'grad_norm': 0.7733030319213867, 'learning_rate': 1.3e-07, 'num_tokens': 1368370.0, 'mean_token_accuracy': 0.976516604423523, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1990/2000 [11:50<00:03,  2.79it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1991/2000 [11:50<00:03,  2.65it/s]\n                                                   \n{'loss': 0.033, 'grad_norm': 0.8099549412727356, 'learning_rate': 1.2000000000000002e-07, 'num_tokens': 1368973.0, 'mean_token_accuracy': 0.981697142124176, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1991/2000 [11:50<00:03,  2.65it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1992/2000 [11:51<00:03,  2.57it/s]\n                                                   \n{'loss': 0.0505, 'grad_norm': 0.8513318300247192, 'learning_rate': 1.1e-07, 'num_tokens': 1369576.0, 'mean_token_accuracy': 0.9733777046203613, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1992/2000 [11:51<00:03,  2.57it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1993/2000 [11:51<00:02,  2.51it/s]\n                                                   \n{'loss': 0.0471, 'grad_norm': 0.8666603565216064, 'learning_rate': 1.0000000000000001e-07, 'num_tokens': 1370179.0, 'mean_token_accuracy': 0.9783693552017212, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1993/2000 [11:51<00:02,  2.51it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1994/2000 [11:51<00:01,  3.08it/s]\n                                                   \n{'loss': 0.0046, 'grad_norm': 0.8277124166488647, 'learning_rate': 9e-08, 'num_tokens': 1370361.0, 'mean_token_accuracy': 1.0, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1994/2000 [11:51<00:01,  3.08it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1995/2000 [11:52<00:01,  2.83it/s]\n                                                   \n{'loss': 0.0491, 'grad_norm': 0.7712334990501404, 'learning_rate': 8e-08, 'num_tokens': 1370964.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1995/2000 [11:52<00:01,  2.83it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1996/2000 [11:52<00:01,  2.80it/s]\n                                                   \n{'loss': 0.037, 'grad_norm': 0.8775883316993713, 'learning_rate': 7e-08, 'num_tokens': 1371988.0, 'mean_token_accuracy': 0.980430543422699, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1996/2000 [11:52<00:01,  2.80it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1997/2000 [11:53<00:01,  2.77it/s]\n                                                   \n{'loss': 0.0377, 'grad_norm': 0.7055721282958984, 'learning_rate': 6.000000000000001e-08, 'num_tokens': 1373012.0, 'mean_token_accuracy': 0.9814090132713318, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1997/2000 [11:53<00:01,  2.77it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1998/2000 [11:53<00:00,  3.33it/s]\n                                                   \n{'loss': 0.005, 'grad_norm': 0.8954693675041199, 'learning_rate': 5.0000000000000004e-08, 'num_tokens': 1373194.0, 'mean_token_accuracy': 1.0, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1998/2000 [11:53<00:00,  3.33it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1999/2000 [11:53<00:00,  2.98it/s]\n                                                   \n{'loss': 0.0314, 'grad_norm': 0.7444577217102051, 'learning_rate': 4e-08, 'num_tokens': 1373797.0, 'mean_token_accuracy': 0.9883527159690857, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1999/2000 [11:53<00:00,  2.98it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588| 2000/2000 [11:54<00:00,  2.77it/s]\n                                                   \n{'loss': 0.0525, 'grad_norm': 1.007545828819275, 'learning_rate': 3.0000000000000004e-08, 'num_tokens': 1374400.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588| 2000/2000 [11:54<00:00,  2.77it/s]\n                                                   \n{'train_runtime': 714.3473, 'train_samples_per_second': 5.6, 'train_steps_per_second': 2.8, 'train_loss': 0.1561080440459773, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588| 2000/2000 [11:54<00:00,  2.77it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588| 2000/2000 [11:54<00:00,  2.80it/s]\nsft_trl_done\n$ python scripts/train_grpo_trl.py --model-id Qwen/Qwen2.5-3B-Instruct --prompts-path data/processed/training_corpus_grpo_prompts.jsonl --output-dir checkpoints/sweeps/qwen-qwen2-5-3b-instruct --report-path outputs/reports/sweeps/qwen-qwen2-5-3b-instruct/grpo_trl_run.json --max-prompts 0 --max-steps 0 --epochs 1.0 --batch-size 2 --grad-accum 1 --num-generations 2 --max-prompt-length 384 --max-completion-length 64 --learning-rate 1e-06 --use-unsloth\n"
+  "source": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/reports/hf_training_status.json"
 }
diff --git a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/manifest.json b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/manifest.json
index bcf49d57626213a76dbda4a094e27a2a5e9b0450..8ade98bf98fb1dc0cabe796d12dd3ba71a9ec82f 100644
--- a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/manifest.json
+++ b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/manifest.json
@@ -1,86 +1,86 @@
 {
   "status": "ok",
-  "generated_at_unix": 1777181385.776074,
-  "source_docs_dir": "docs/results/submission_evidence_qwen_0_5b_1_5b",
-  "docs_dir": "docs/results/model_improvement_evidence_qwen_0_5b_1_5b",
-  "report_dir": "outputs/reports/model_improvement_evidence/qwen_0_5b_1_5b",
-  "bundle_zip": "submission_bundle/qwen_0_5b_1_5b_model_improvement_evidence.zip",
+  "generated_at_unix": 1777182610.685568,
+  "source_docs_dir": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/submission_evidence_qwen_0_5b_1_5b",
+  "docs_dir": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/model_improvement_evidence_qwen_0_5b_1_5b",
+  "report_dir": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/reports/model_improvement_evidence/qwen_0_5b_1_5b",
+  "bundle_zip": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/submission_bundle/qwen_0_5b_1_5b_model_improvement_evidence.zip",
   "training_commands_run": false,
   "chart_count": 21,
   "chart_index": [
     {
       "id": "qwen_0_5b_sft_training_loss",
-      "title": "Qwen 0.5B SFT Training Loss",
+      "title": "Qwen 0.5B + Bandits SFT Training Loss",
       "category": "training_loss",
       "path": "charts/training_loss/qwen_0_5b_sft_training_loss.png",
       "source": "charts/generated/qwen_0_5b_sft_training_loss.png"
     },
     {
       "id": "qwen_1_5b_sft_training_loss",
-      "title": "Qwen 1.5B SFT Training Loss",
+      "title": "Qwen 1.5B + Bandits SFT Training Loss",
       "category": "training_loss",
       "path": "charts/training_loss/qwen_1_5b_sft_training_loss.png",
       "source": "charts/generated/qwen_1_5b_sft_training_loss.png"
     },
     {
       "id": "qwen_0_5b_vs_1_5b_sft_loss_comparison",
-      "title": "Qwen 0.5B vs 1.5B SFT Loss",
+      "title": "Qwen 0.5B + Bandits vs 1.5B + Bandits SFT Loss",
       "category": "training_loss",
       "path": "charts/training_loss/qwen_0_5b_vs_1_5b_sft_loss_comparison.png",
       "source": "charts/generated/qwen_0_5b_vs_1_5b_sft_loss_comparison.png"
     },
     {
       "id": "qwen_0_5b_vs_1_5b_token_accuracy",
-      "title": "Qwen 0.5B vs 1.5B Token Accuracy",
+      "title": "Qwen 0.5B + Bandits vs 1.5B + Bandits Token Accuracy",
       "category": "training_accuracy",
       "path": "charts/training_accuracy/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png",
       "source": "charts/generated/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png"
     },
     {
       "id": "qwen_sft_runtime",
-      "title": "Qwen SFT Runtime",
+      "title": "Qwen + Bandits SFT Runtime",
       "category": "training_runtime",
       "path": "charts/training_runtime/qwen_0_5b_1_5b_sft_runtime.png",
       "source": "charts/generated/qwen_0_5b_1_5b_sft_runtime.png"
     },
     {
       "id": "sft_vs_grpo_reward",
-      "title": "SFT Baseline vs GRPO Reward",
+      "title": "SFT Baseline vs GRPO + Bandits Reward",
       "category": "sft_vs_grpo",
       "path": "charts/sft_vs_grpo/sft_vs_grpo_reward.png",
       "source": "charts/local_available_combined/sft_vs_grpo_reward.png"
     },
     {
       "id": "grpo_reward_curves",
-      "title": "GRPO Reward Curves",
+      "title": "GRPO + Bandits Reward Curves",
       "category": "grpo_training",
       "path": "charts/grpo_training/grpo_reward_curves.png",
       "source": "charts/local_available_combined/grpo_reward_curves.png"
     },
     {
       "id": "qwen_model_sft_loss",
-      "title": "Qwen Model SFT Loss Comparison",
+      "title": "Qwen + Bandits Model SFT Loss Comparison",
       "category": "model_comparison",
       "path": "charts/model_comparison/qwen_model_sft_loss.png",
       "source": "charts/local_available_combined/qwen_model_sft_loss.png"
     },
     {
       "id": "qwen_model_sft_reward",
-      "title": "Qwen Model SFT Reward Comparison",
+      "title": "Qwen + Bandits Model SFT Reward Comparison",
       "category": "model_comparison",
       "path": "charts/model_comparison/qwen_model_sft_reward.png",
       "source": "charts/local_available_combined/qwen_model_sft_reward.png"
     },
     {
       "id": "qwen_model_grpo_reward",
-      "title": "Qwen Model GRPO Reward Comparison",
+      "title": "Qwen + Bandits Model GRPO Reward Comparison",
       "category": "model_comparison",
       "path": "charts/model_comparison/qwen_model_grpo_reward.png",
       "source": "charts/local_available_combined/qwen_model_grpo_reward.png"
     },
     {
       "id": "policy_ablation_avg_reward",
-      "title": "Without Bandit vs With Bandit Reward",
+      "title": "Without Bandits vs With Bandits Reward",
       "category": "policy_ablation",
       "path": "charts/policy_ablation/policy_ablation_avg_reward.png",
       "source": "charts/generated/policy_ablation_avg_reward.png"
@@ -94,28 +94,28 @@
     },
     {
       "id": "policy_stack_avg_reward",
-      "title": "Policy Stack Average Reward",
+      "title": "Without Bandits vs With Bandits Policy Stack Reward",
       "category": "policy_ablation",
       "path": "charts/policy_ablation/policy_stack_avg_reward.png",
       "source": "charts/local_available_combined/policy_stack_avg_reward.png"
     },
     {
       "id": "basic_llm_vs_full_pipeline_reward",
-      "title": "Basic LLM vs Full PolyGuard Reward",
+      "title": "Basic LLM vs Full PolyGuard + Bandits Reward",
       "category": "product_over_basic_llm",
       "path": "charts/product_over_basic_llm/basic_llm_vs_full_pipeline_reward.png",
       "source": "charts/generated/basic_llm_vs_full_pipeline_reward.png"
     },
     {
       "id": "basic_llm_vs_full_pipeline_legality",
-      "title": "Basic LLM vs Full PolyGuard Legality",
+      "title": "Basic LLM vs Full PolyGuard + Bandits Legality",
       "category": "product_over_basic_llm",
       "path": "charts/product_over_basic_llm/basic_llm_vs_full_pipeline_legality.png",
       "source": "charts/generated/basic_llm_vs_full_pipeline_legality.png"
     },
     {
       "id": "basic_llm_vs_full_pipeline_delta",
-      "title": "Pipeline Minus Basic Reward By Seed",
+      "title": "PolyGuard + Bandits Minus Basic Reward By Seed",
       "category": "product_over_basic_llm",
       "path": "charts/product_over_basic_llm/basic_llm_vs_full_pipeline_reward_delta_by_seed.png",
       "source": "charts/generated/basic_llm_vs_full_pipeline_reward_delta_by_seed.png"
@@ -166,28 +166,28 @@
     "reports/hf_status_snapshot.json",
     "reports/artifact_repo_listing.json",
     "reports/action_traces.jsonl",
-    "docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-0-5b-instruct/sft_trl_run.json",
-    "docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-0-5b-instruct/run_metadata.json",
-    "docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-0-5b-instruct/sft_history.json",
-    "docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-0-5b-instruct/postsave_inference_sft.json",
-    "docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-0-5b-instruct/availability.json",
-    "docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-1-5b-instruct/sft_trl_run.json",
-    "docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-1-5b-instruct/run_metadata.json",
-    "docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-1-5b-instruct/sft_history.json",
-    "docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-1-5b-instruct/postsave_inference_sft.json",
-    "docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-1-5b-instruct/availability.json",
-    "docs/results/model_improvement_evidence_qwen_0_5b_1_5b/traces/action_traces.jsonl"
+    "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-0-5b-instruct/sft_trl_run.json",
+    "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-0-5b-instruct/run_metadata.json",
+    "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-0-5b-instruct/sft_history.json",
+    "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-0-5b-instruct/postsave_inference_sft.json",
+    "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-0-5b-instruct/availability.json",
+    "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-1-5b-instruct/sft_trl_run.json",
+    "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-1-5b-instruct/run_metadata.json",
+    "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-1-5b-instruct/sft_history.json",
+    "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-1-5b-instruct/postsave_inference_sft.json",
+    "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/model_improvement_evidence_qwen_0_5b_1_5b/reports/runs/qwen-qwen2-5-1-5b-instruct/availability.json",
+    "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/model_improvement_evidence_qwen_0_5b_1_5b/traces/action_traces.jsonl"
   ],
   "pending_artifacts": [
     "Qwen 0.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 0.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 0.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 0.5B grpo_training: not_seen_in_status",
+    "Qwen 0.5B policy_ablation: not_seen_in_status",
     "Qwen 0.5B postsave_inference_grpo.json: pending_artifact_upload",
     "Qwen 1.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 1.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 1.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 1.5B grpo_training: not_seen_in_status",
+    "Qwen 1.5B policy_ablation: not_seen_in_status",
     "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload"
   ]
 }
diff --git a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/model_improvement_report.json b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/model_improvement_report.json
index b6cc06be68580c8932ba6ba9e1967cd4607b9b1c..507c782c0bafa8c1f11b3f8190c77f681917e92e 100644
--- a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/model_improvement_report.json
+++ b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/model_improvement_report.json
@@ -1,8 +1,8 @@
 {
   "status": "ok",
-  "generated_at_unix": 1777181385.773668,
+  "generated_at_unix": 1777182610.680672,
   "training_commands_run": false,
-  "scope": "Qwen 0.5B and Qwen 1.5B evidence only; Qwen 3B can be added after GRPO artifacts land.",
+  "scope": "Qwen 0.5B + Bandits and Qwen 1.5B + Bandits evidence only; Qwen 3B can be added after GRPO artifacts land.",
   "judge": "PolyGuard verifier/reward system",
   "models": [
     {
@@ -11,9 +11,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "remote_completed_pending_artifact_upload",
-        "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-        "policy_ablation": "remote_completed_pending_artifact_upload"
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
       },
       "sft_first_loss": 3.0856,
       "sft_last_loss": 0.0626,
@@ -28,9 +28,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "remote_completed_pending_artifact_upload",
-        "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-        "policy_ablation": "remote_completed_pending_artifact_upload"
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
       },
       "sft_first_loss": 2.9686,
       "sft_last_loss": 0.0681,
@@ -54,7 +54,7 @@
       "sft_policy": {
         "episodes": 8,
         "avg_reward": 0.818,
-        "avg_latency_seconds": 0.0012,
+        "avg_latency_seconds": 0.0013,
         "legality_rate": 1.0,
         "exploit_or_failure_rate": 0.0,
         "candidate_diversity": 2
@@ -62,7 +62,7 @@
       "full_polyguard_pipeline": {
         "episodes": 8,
         "avg_reward": 0.805,
-        "avg_latency_seconds": 0.3876,
+        "avg_latency_seconds": 0.3727,
         "legality_rate": 1.0,
         "exploit_or_failure_rate": 0.0,
         "candidate_diversity": 2
@@ -78,14 +78,14 @@
   },
   "pending_artifacts": [
     "Qwen 0.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 0.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 0.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 0.5B grpo_training: not_seen_in_status",
+    "Qwen 0.5B policy_ablation: not_seen_in_status",
     "Qwen 0.5B postsave_inference_grpo.json: pending_artifact_upload",
     "Qwen 1.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 1.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 1.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 1.5B grpo_training: not_seen_in_status",
+    "Qwen 1.5B policy_ablation: not_seen_in_status",
     "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload"
   ],
   "chart_categories": [
diff --git a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/remote_stage_records.json b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/remote_stage_records.json
index 26352611eeab0bb07b964c76298f3fa0f542711b..fe51488c7066f6687ef680d6bfaa4f7768ef205c 100644
--- a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/remote_stage_records.json
+++ b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/remote_stage_records.json
@@ -1,92 +1 @@
-[
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "sft_training",
-    "returncode": 0,
-    "elapsed_seconds": 257.387,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "grpo_training",
-    "returncode": 0,
-    "elapsed_seconds": 4230.645,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "sft_postsave_inference",
-    "returncode": 0,
-    "elapsed_seconds": 15.201,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "grpo_postsave_inference",
-    "returncode": 0,
-    "elapsed_seconds": 18.461,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "policy_ablation",
-    "returncode": 0,
-    "elapsed_seconds": 3.989,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "sft_training",
-    "returncode": 0,
-    "elapsed_seconds": 454.278,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "grpo_training",
-    "returncode": 0,
-    "elapsed_seconds": 5118.654,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "sft_postsave_inference",
-    "returncode": 0,
-    "elapsed_seconds": 17.128,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "grpo_postsave_inference",
-    "returncode": 0,
-    "elapsed_seconds": 21.528,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "policy_ablation",
-    "returncode": 0,
-    "elapsed_seconds": 4.001,
-    "completed": true
-  }
-]
+[]
diff --git a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/submission_summary.json b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/submission_summary.json
index 559a39eee196526b0c832f9689a667397f11b61a..314b7c1caea767b13b585dc4c8d4e725530ba70f 100644
--- a/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/submission_summary.json
+++ b/docs/results/model_improvement_evidence/qwen_0_5b_1_5b/submission_summary.json
@@ -1,6 +1,6 @@
 {
   "status": "ok",
-  "generated_at_unix": 1777179035.763374,
+  "generated_at_unix": 1777182595.007497,
   "models": [
     {
       "run_id": "qwen-qwen2-5-0-5b-instruct",
@@ -9,9 +9,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "remote_completed_pending_artifact_upload",
-        "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-        "policy_ablation": "remote_completed_pending_artifact_upload"
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
       },
       "metrics": {
         "sft_train_loss": 0.19233327957964502,
@@ -51,9 +51,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "remote_completed_pending_artifact_upload",
-        "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-        "policy_ablation": "remote_completed_pending_artifact_upload"
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
       },
       "metrics": {
         "sft_train_loss": 0.11515871361242898,
@@ -89,111 +89,17 @@
   ],
   "artifact_repo": {
     "repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
-    "status": "pending_artifact_upload",
-    "files": [
-      ".gitattributes"
-    ],
-    "meaningful_file_count": 0,
+    "status": "skipped_local_only",
+    "files": [],
     "error": ""
   },
-  "remote_snapshot_used": "/Users/daver/.cache/huggingface/hub/models--TheJackBright--polyguard-openenv-training-full-artifacts/snapshots/f313e87ad0df089dbe586b469c8f0a34e05bc5cd",
+  "remote_snapshot_used": "",
   "training_space_status": {
     "status": "running",
-    "source": "https://thejackbright-polyguard-openenv-training-full.hf.space",
+    "source": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/reports/hf_training_status.json",
     "completed_run_ids": []
   },
-  "stage_records": [
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "sft_training",
-      "returncode": 0,
-      "elapsed_seconds": 257.387,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "grpo_training",
-      "returncode": 0,
-      "elapsed_seconds": 4230.645,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "sft_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 15.201,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "grpo_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 18.461,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "policy_ablation",
-      "returncode": 0,
-      "elapsed_seconds": 3.989,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "sft_training",
-      "returncode": 0,
-      "elapsed_seconds": 454.278,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "grpo_training",
-      "returncode": 0,
-      "elapsed_seconds": 5118.654,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "sft_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 17.128,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "grpo_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 21.528,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "policy_ablation",
-      "returncode": 0,
-      "elapsed_seconds": 4.001,
-      "completed": true
-    }
-  ],
+  "stage_records": [],
   "charts": {
     "qwen_0_5b_sft_training_loss": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/plots/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_training_loss.png",
     "qwen_0_5b_sft_token_accuracy": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/plots/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_token_accuracy.png",
@@ -220,14 +126,14 @@
   },
   "pending_artifacts": [
     "Qwen 0.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 0.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 0.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 0.5B grpo_training: not_seen_in_status",
+    "Qwen 0.5B policy_ablation: not_seen_in_status",
     "Qwen 0.5B postsave_inference_grpo.json: pending_artifact_upload",
     "Qwen 1.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 1.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 1.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 1.5B grpo_training: not_seen_in_status",
+    "Qwen 1.5B policy_ablation: not_seen_in_status",
     "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload"
   ],
   "reward_validation_errors": [],
diff --git a/docs/results/qwen_model_grpo_reward.png b/docs/results/qwen_model_grpo_reward.png
index 4b35e432d6d777827f6bf0dc189bfc74b4427125..ba56fd46b8319c7079ee914ec0058e4fe5c78fc9 100644
Binary files a/docs/results/qwen_model_grpo_reward.png and b/docs/results/qwen_model_grpo_reward.png differ
diff --git a/docs/results/qwen_model_sft_loss.png b/docs/results/qwen_model_sft_loss.png
index 1ec58084d2c79f340541654e5d99906a3ae592ac..1704e1874b29e3940d039859473ab6c6976b910e 100644
Binary files a/docs/results/qwen_model_sft_loss.png and b/docs/results/qwen_model_sft_loss.png differ
diff --git a/docs/results/qwen_model_sft_reward.png b/docs/results/qwen_model_sft_reward.png
index 2773c4f16e553eeffc43c9ef348a988b77735c52..c5462417c93e3527d7224d806ef80b153051050a 100644
Binary files a/docs/results/qwen_model_sft_reward.png and b/docs/results/qwen_model_sft_reward.png differ
diff --git a/docs/results/reward_component_bars.png b/docs/results/reward_component_bars.png
index fc18c8433fb28860795036a1aab24f9aa05f61af..850ed462c7e58b7ad2f4ab88cae557f95d1b689e 100644
Binary files a/docs/results/reward_component_bars.png and b/docs/results/reward_component_bars.png differ
diff --git a/docs/results/sft_loss_curves.png b/docs/results/sft_loss_curves.png
index 8d5bf10a57fdc8264485616fd51d637f0709f104..60710fb94d95eba319e3426b4166a62877fe08cc 100644
Binary files a/docs/results/sft_loss_curves.png and b/docs/results/sft_loss_curves.png differ
diff --git a/docs/results/sft_validity_reward.png b/docs/results/sft_validity_reward.png
index 5616296656c79ff7946479ce233f9b9e7c582a05..db8560c0d68a0878ab4d91ea1d27ae77276e20ec 100644
Binary files a/docs/results/sft_validity_reward.png and b/docs/results/sft_validity_reward.png differ
diff --git a/docs/results/sft_vs_grpo_reward.png b/docs/results/sft_vs_grpo_reward.png
index 4765e95fbbc1f1ed2f8a6686909241a75486caa5..0938d1b65b686f5a79f614601f7b434963e79094 100644
Binary files a/docs/results/sft_vs_grpo_reward.png and b/docs/results/sft_vs_grpo_reward.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/artifact_repo_listing.json b/docs/results/submission_evidence/qwen_0_5b_1_5b/artifact_repo_listing.json
index 1c1b2faf9c8218a4e723aaac00e7a7f2cddf0538..99572004cc6cb602f33743e8e47c4177ebe1434d 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b/artifact_repo_listing.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b/artifact_repo_listing.json
@@ -1,9 +1,6 @@
 {
   "repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
-  "status": "pending_artifact_upload",
-  "files": [
-    ".gitattributes"
-  ],
-  "meaningful_file_count": 0,
+  "status": "skipped_local_only",
+  "files": [],
   "error": ""
 }
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_latency.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_latency.png
index 30df76ac40b24370c4d47f38a5b392e8e7c8b36f..c507a99ebf9c1eda100ef16e24048ff56068532a 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_latency.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_latency.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_legality.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_legality.png
index 354ee4f38019cfceb7db848c00ee7bda6270c162..180ef4bb099a8b7c254db02e1281cd8e308bf058 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_legality.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_legality.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_reward.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_reward.png
index a334d8db37904ac9ab47a582cd1efb83545a7027..630724370ea5b0c19b60ae41173f4c835d37accb 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_reward.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_reward.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_reward_delta_by_seed.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_reward_delta_by_seed.png
index 5d068d5f289f2e688017d55fba2219c1d0154167..636dcbb7a4d53f984f1cf1ef549bf581e6792604 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_reward_delta_by_seed.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_full_pipeline_reward_delta_by_seed.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_polyguard_report.json b/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_polyguard_report.json
index 32d4f98fc269daee5221d67244ea0c995322747f..5c1f19680016127e86036af1db313744773c0d37 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_polyguard_report.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b/basic_llm_vs_polyguard_report.json
@@ -24,7 +24,7 @@
     "sft_policy": {
       "episodes": 8,
       "avg_reward": 0.818,
-      "avg_latency_seconds": 0.0012,
+      "avg_latency_seconds": 0.0013,
       "legality_rate": 1.0,
       "exploit_or_failure_rate": 0.0,
       "candidate_diversity": 2
@@ -32,7 +32,7 @@
     "full_polyguard_pipeline": {
       "episodes": 8,
       "avg_reward": 0.805,
-      "avg_latency_seconds": 0.3876,
+      "avg_latency_seconds": 0.3727,
       "legality_rate": 1.0,
       "exploit_or_failure_rate": 0.0,
       "candidate_diversity": 2
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/hf_status_snapshot.json b/docs/results/submission_evidence/qwen_0_5b_1_5b/hf_status_snapshot.json
index adec7032d7fae6ba4ca73ed347e0176c38aa961f..146b6639d2c42f8978b6cd32d4f5cf2a4941948b 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b/hf_status_snapshot.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b/hf_status_snapshot.json
@@ -1,6 +1,6 @@
 {
   "status": "running",
-  "started_at": 1777162756.623835,
+  "started_at": 1777180786.0648105,
   "finished_at": null,
   "commands": [
     {
@@ -9,7 +9,7 @@
         "scripts/bootstrap_data.py"
       ],
       "returncode": 0,
-      "elapsed_seconds": 0.577
+      "elapsed_seconds": 0.507
     },
     {
       "args": [
@@ -22,255 +22,7 @@
         "--with-hf"
       ],
       "returncode": 0,
-      "elapsed_seconds": 3.86
-    },
-    {
-      "args": [
-        "python",
-        "scripts/train_sft_trl.py",
-        "--model-id",
-        "Qwen/Qwen2.5-0.5B-Instruct",
-        "--dataset-path",
-        "data/processed/training_corpus_sft.json",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct",
-        "--report-path",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/sft_trl_run.json",
-        "--epochs",
-        "2",
-        "--max-steps",
-        "0",
-        "--batch-size",
-        "2",
-        "--max-seq-len",
-        "512",
-        "--learning-rate",
-        "2e-05",
-        "--use-unsloth"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 257.387
-    },
-    {
-      "args": [
-        "python",
-        "scripts/train_grpo_trl.py",
-        "--model-id",
-        "Qwen/Qwen2.5-0.5B-Instruct",
-        "--prompts-path",
-        "data/processed/training_corpus_grpo_prompts.jsonl",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct",
-        "--report-path",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/grpo_trl_run.json",
-        "--max-prompts",
-        "0",
-        "--max-steps",
-        "0",
-        "--epochs",
-        "1.0",
-        "--batch-size",
-        "2",
-        "--grad-accum",
-        "1",
-        "--num-generations",
-        "2",
-        "--max-prompt-length",
-        "384",
-        "--max-completion-length",
-        "64",
-        "--learning-rate",
-        "1e-06",
-        "--use-unsloth"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 4230.645
-    },
-    {
-      "args": [
-        "python",
-        "scripts/merge_adapters_safe.py",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/sft_adapter",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/merged"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 7.303
-    },
-    {
-      "args": [
-        "python",
-        "scripts/test_inference_postsave.py",
-        "--samples",
-        "5",
-        "--base-model",
-        "Qwen/Qwen2.5-0.5B-Instruct",
-        "--merged-model",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/merged",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/sft_adapter",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/postsave_inference_sft.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 15.201
-    },
-    {
-      "args": [
-        "python",
-        "scripts/test_inference_postsave.py",
-        "--samples",
-        "5",
-        "--base-model",
-        "Qwen/Qwen2.5-0.5B-Instruct",
-        "--merged-model",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/missing_merged_grpo",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/grpo_adapter",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/postsave_inference_grpo.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 18.461
-    },
-    {
-      "args": [
-        "python",
-        "scripts/evaluate_policy_ablations.py",
-        "--episodes",
-        "8",
-        "--checkpoint-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/grpo_ablation_report.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 3.989
-    },
-    {
-      "args": [
-        "python",
-        "scripts/train_sft_trl.py",
-        "--model-id",
-        "Qwen/Qwen2.5-1.5B-Instruct",
-        "--dataset-path",
-        "data/processed/training_corpus_sft.json",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct",
-        "--report-path",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/sft_trl_run.json",
-        "--epochs",
-        "2",
-        "--max-steps",
-        "0",
-        "--batch-size",
-        "2",
-        "--max-seq-len",
-        "512",
-        "--learning-rate",
-        "2e-05",
-        "--use-unsloth"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 454.278
-    },
-    {
-      "args": [
-        "python",
-        "scripts/train_grpo_trl.py",
-        "--model-id",
-        "Qwen/Qwen2.5-1.5B-Instruct",
-        "--prompts-path",
-        "data/processed/training_corpus_grpo_prompts.jsonl",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct",
-        "--report-path",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/grpo_trl_run.json",
-        "--max-prompts",
-        "0",
-        "--max-steps",
-        "0",
-        "--epochs",
-        "1.0",
-        "--batch-size",
-        "2",
-        "--grad-accum",
-        "1",
-        "--num-generations",
-        "2",
-        "--max-prompt-length",
-        "384",
-        "--max-completion-length",
-        "64",
-        "--learning-rate",
-        "1e-06",
-        "--use-unsloth"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 5118.654
-    },
-    {
-      "args": [
-        "python",
-        "scripts/merge_adapters_safe.py",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/sft_adapter",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/merged"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 10.6
-    },
-    {
-      "args": [
-        "python",
-        "scripts/test_inference_postsave.py",
-        "--samples",
-        "5",
-        "--base-model",
-        "Qwen/Qwen2.5-1.5B-Instruct",
-        "--merged-model",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/merged",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/sft_adapter",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/postsave_inference_sft.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 17.128
-    },
-    {
-      "args": [
-        "python",
-        "scripts/test_inference_postsave.py",
-        "--samples",
-        "5",
-        "--base-model",
-        "Qwen/Qwen2.5-1.5B-Instruct",
-        "--merged-model",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/missing_merged_grpo",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/grpo_adapter",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/postsave_inference_grpo.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 21.528
-    },
-    {
-      "args": [
-        "python",
-        "scripts/evaluate_policy_ablations.py",
-        "--episodes",
-        "8",
-        "--checkpoint-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/grpo_ablation_report.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 4.001
+      "elapsed_seconds": 3.695
     },
     {
       "args": [
@@ -297,15 +49,13 @@
         "--use-unsloth"
       ],
       "returncode": 0,
-      "elapsed_seconds": 736.955
+      "elapsed_seconds": 737.28
     }
   ],
-  "artifact_repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
+  "artifact_repo_id": "adithya9903/polyguard-openenv-training-3b-artifacts",
+  "training_mode": "full",
   "model_sweep": [
-    "Qwen/Qwen2.5-0.5B-Instruct",
-    "Qwen/Qwen2.5-1.5B-Instruct",
     "Qwen/Qwen2.5-3B-Instruct"
   ],
-  "source": "https://thejackbright-polyguard-openenv-training-full.hf.space",
-  "log_tail": "\u2588\u2588\u2588\u2588\u2588\u258a| 1965/2000 [11:41<00:10,  3.22it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1966/2000 [11:42<00:11,  2.91it/s]\n                                                   \n{'loss': 0.0449, 'grad_norm': 0.8585970401763916, 'learning_rate': 3.7e-07, 'num_tokens': 1350951.0, 'mean_token_accuracy': 0.9767054915428162, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1966/2000 [11:42<00:11,  2.91it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1967/2000 [11:42<00:11,  2.85it/s]\n                                                   \n{'loss': 0.0518, 'grad_norm': 0.7478350400924683, 'learning_rate': 3.6e-07, 'num_tokens': 1351975.0, 'mean_token_accuracy': 0.9755381345748901, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1967/2000 [11:42<00:11,  2.85it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1968/2000 [11:42<00:11,  2.69it/s]\n                                                   \n{'loss': 0.0442, 'grad_norm': 0.8791924715042114, 'learning_rate': 3.5000000000000004e-07, 'num_tokens': 1352578.0, 'mean_token_accuracy': 0.9767054915428162, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1968/2000 [11:42<00:11,  2.69it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1969/2000 [11:43<00:11,  2.70it/s]\n                                                   \n{'loss': 0.0488, 'grad_norm': 0.6195839047431946, 'learning_rate': 3.4000000000000003e-07, 'num_tokens': 1353602.0, 'mean_token_accuracy': 0.9706457853317261, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1969/2000 [11:43<00:11,  2.70it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1970/2000 [11:43<00:09,  3.27it/s]\n                                                   \n{'loss': 0.0047, 'grad_norm': 0.8639671802520752, 'learning_rate': 3.3e-07, 'num_tokens': 1353784.0, 'mean_token_accuracy': 1.0, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1970/2000 [11:43<00:09,  3.27it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1971/2000 [11:43<00:07,  3.82it/s]\n                                                   \n{'loss': 0.0048, 'grad_norm': 0.8560010194778442, 'learning_rate': 3.2e-07, 'num_tokens': 1353966.0, 'mean_token_accuracy': 1.0, 'epoch': 1.97}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1971/2000 [11:43<00:07,  3.82it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1972/2000 [11:43<00:08,  3.41it/s]\n                                                   \n{'loss': 0.0382, 'grad_norm': 0.8542295694351196, 'learning_rate': 3.1000000000000005e-07, 'num_tokens': 1354990.0, 'mean_token_accuracy': 0.9823874831199646, 'epoch': 1.97}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1972/2000 [11:43<00:08,  3.41it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1973/2000 [11:44<00:08,  3.02it/s]\n                                                   \n{'loss': 0.033, 'grad_norm': 0.7632898688316345, 'learning_rate': 3.0000000000000004e-07, 'num_tokens': 1355593.0, 'mean_token_accuracy': 0.9833610653877258, 'epoch': 1.97}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1973/2000 [11:44<00:08,  3.02it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1974/2000 [11:44<00:08,  2.92it/s]\n                                                   \n{'loss': 0.0582, 'grad_norm': 0.7546073198318481, 'learning_rate': 2.9000000000000003e-07, 'num_tokens': 1356617.0, 'mean_token_accuracy': 0.9706457853317261, 'epoch': 1.97}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1974/2000 [11:44<00:08,  2.92it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1975/2000 [11:44<00:08,  2.85it/s]\n                                                   \n{'loss': 0.0607, 'grad_norm': 0.9100231528282166, 'learning_rate': 2.8e-07, 'num_tokens': 1357641.0, 'mean_token_accuracy': 0.9706457853317261, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1975/2000 [11:44<00:08,  2.85it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1976/2000 [11:45<00:08,  2.81it/s]\n                                                   \n{'loss': 0.0522, 'grad_norm': 0.9831849932670593, 'learning_rate': 2.7e-07, 'num_tokens': 1358665.0, 'mean_token_accuracy': 0.9726027250289917, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1976/2000 [11:45<00:08,  2.81it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1977/2000 [11:45<00:08,  2.67it/s]\n                                                   \n{'loss': 0.0455, 'grad_norm': 0.7770227789878845, 'learning_rate': 2.6e-07, 'num_tokens': 1359268.0, 'mean_token_accuracy': 0.9783693552017212, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1977/2000 [11:45<00:08,  2.67it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1978/2000 [11:46<00:08,  2.58it/s]\n                                                   \n{'loss': 0.043, 'grad_norm': 0.9285680055618286, 'learning_rate': 2.5000000000000004e-07, 'num_tokens': 1359871.0, 'mean_token_accuracy': 0.981697142124176, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1978/2000 [11:46<00:08,  2.58it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1979/2000 [11:46<00:08,  2.62it/s]\n                                                   \n{'loss': 0.0475, 'grad_norm': 0.725820004940033, 'learning_rate': 2.4000000000000003e-07, 'num_tokens': 1360895.0, 'mean_token_accuracy': 0.9784736037254333, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1979/2000 [11:46<00:08,  2.62it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1980/2000 [11:46<00:07,  2.54it/s]\n                                                   \n{'loss': 0.0523, 'grad_norm': 0.9508711099624634, 'learning_rate': 2.3000000000000002e-07, 'num_tokens': 1361498.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1980/2000 [11:46<00:07,  2.54it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1981/2000 [11:47<00:07,  2.49it/s]\n                                                   \n{'loss': 0.0461, 'grad_norm': 0.9076665639877319, 'learning_rate': 2.2e-07, 'num_tokens': 1362101.0, 'mean_token_accuracy': 0.980033278465271, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1981/2000 [11:47<00:07,  2.49it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1982/2000 [11:47<00:05,  3.07it/s]\n                                                   \n{'loss': 0.0049, 'grad_norm': 0.8733372092247009, 'learning_rate': 2.1000000000000003e-07, 'num_tokens': 1362283.0, 'mean_token_accuracy': 1.0, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1982/2000 [11:47<00:05,  3.07it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1983/2000 [11:47<00:06,  2.83it/s]\n                                                   \n{'loss': 0.0499, 'grad_norm': 1.0219769477844238, 'learning_rate': 2.0000000000000002e-07, 'num_tokens': 1362886.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1983/2000 [11:47<00:06,  2.83it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1984/2000 [11:48<00:05,  2.79it/s]\n                                                   \n{'loss': 0.047, 'grad_norm': 0.6855125427246094, 'learning_rate': 1.9e-07, 'num_tokens': 1363910.0, 'mean_token_accuracy': 0.9794520735740662, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1984/2000 [11:48<00:05,  2.79it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1985/2000 [11:48<00:05,  2.66it/s]\n                                                   \n{'loss': 0.053, 'grad_norm': 0.9592626094818115, 'learning_rate': 1.8e-07, 'num_tokens': 1364513.0, 'mean_token_accuracy': 0.9717137813568115, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1985/2000 [11:48<00:05,  2.66it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1986/2000 [11:49<00:05,  2.67it/s]\n                                                   \n{'loss': 0.0634, 'grad_norm': 0.9822715520858765, 'learning_rate': 1.7000000000000001e-07, 'num_tokens': 1365537.0, 'mean_token_accuracy': 0.9696673154830933, 'epoch': 1.99}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1986/2000 [11:49<00:05,  2.67it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1987/2000 [11:49<00:04,  3.24it/s]\n                                                   \n{'loss': 0.005, 'grad_norm': 0.9051101207733154, 'learning_rate': 1.6e-07, 'num_tokens': 1365719.0, 'mean_token_accuracy': 1.0, 'epoch': 1.99}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1987/2000 [11:49<00:04,  3.24it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1988/2000 [11:49<00:03,  3.06it/s]\n                                                   \n{'loss': 0.057, 'grad_norm': 0.7732815742492676, 'learning_rate': 1.5000000000000002e-07, 'num_tokens': 1366743.0, 'mean_token_accuracy': 0.9716242551803589, 'epoch': 1.99}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1988/2000 [11:49<00:03,  3.06it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1989/2000 [11:50<00:03,  2.82it/s]\n                                                   \n{'loss': 0.0488, 'grad_norm': 1.0130807161331177, 'learning_rate': 1.4e-07, 'num_tokens': 1367346.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 1.99}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1989/2000 [11:50<00:03,  2.82it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1990/2000 [11:50<00:03,  2.79it/s]\n                                                   \n{'loss': 0.0502, 'grad_norm': 0.7733030319213867, 'learning_rate': 1.3e-07, 'num_tokens': 1368370.0, 'mean_token_accuracy': 0.976516604423523, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1990/2000 [11:50<00:03,  2.79it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1991/2000 [11:50<00:03,  2.65it/s]\n                                                   \n{'loss': 0.033, 'grad_norm': 0.8099549412727356, 'learning_rate': 1.2000000000000002e-07, 'num_tokens': 1368973.0, 'mean_token_accuracy': 0.981697142124176, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1991/2000 [11:50<00:03,  2.65it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1992/2000 [11:51<00:03,  2.57it/s]\n                                                   \n{'loss': 0.0505, 'grad_norm': 0.8513318300247192, 'learning_rate': 1.1e-07, 'num_tokens': 1369576.0, 'mean_token_accuracy': 0.9733777046203613, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1992/2000 [11:51<00:03,  2.57it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1993/2000 [11:51<00:02,  2.51it/s]\n                                                   \n{'loss': 0.0471, 'grad_norm': 0.8666603565216064, 'learning_rate': 1.0000000000000001e-07, 'num_tokens': 1370179.0, 'mean_token_accuracy': 0.9783693552017212, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1993/2000 [11:51<00:02,  2.51it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1994/2000 [11:51<00:01,  3.08it/s]\n                                                   \n{'loss': 0.0046, 'grad_norm': 0.8277124166488647, 'learning_rate': 9e-08, 'num_tokens': 1370361.0, 'mean_token_accuracy': 1.0, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1994/2000 [11:51<00:01,  3.08it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1995/2000 [11:52<00:01,  2.83it/s]\n                                                   \n{'loss': 0.0491, 'grad_norm': 0.7712334990501404, 'learning_rate': 8e-08, 'num_tokens': 1370964.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1995/2000 [11:52<00:01,  2.83it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1996/2000 [11:52<00:01,  2.80it/s]\n                                                   \n{'loss': 0.037, 'grad_norm': 0.8775883316993713, 'learning_rate': 7e-08, 'num_tokens': 1371988.0, 'mean_token_accuracy': 0.980430543422699, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1996/2000 [11:52<00:01,  2.80it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1997/2000 [11:53<00:01,  2.77it/s]\n                                                   \n{'loss': 0.0377, 'grad_norm': 0.7055721282958984, 'learning_rate': 6.000000000000001e-08, 'num_tokens': 1373012.0, 'mean_token_accuracy': 0.9814090132713318, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1997/2000 [11:53<00:01,  2.77it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1998/2000 [11:53<00:00,  3.33it/s]\n                                                   \n{'loss': 0.005, 'grad_norm': 0.8954693675041199, 'learning_rate': 5.0000000000000004e-08, 'num_tokens': 1373194.0, 'mean_token_accuracy': 1.0, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1998/2000 [11:53<00:00,  3.33it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1999/2000 [11:53<00:00,  2.98it/s]\n                                                   \n{'loss': 0.0314, 'grad_norm': 0.7444577217102051, 'learning_rate': 4e-08, 'num_tokens': 1373797.0, 'mean_token_accuracy': 0.9883527159690857, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1999/2000 [11:53<00:00,  2.98it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588| 2000/2000 [11:54<00:00,  2.77it/s]\n                                                   \n{'loss': 0.0525, 'grad_norm': 1.007545828819275, 'learning_rate': 3.0000000000000004e-08, 'num_tokens': 1374400.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588| 2000/2000 [11:54<00:00,  2.77it/s]\n                                                   \n{'train_runtime': 714.3473, 'train_samples_per_second': 5.6, 'train_steps_per_second': 2.8, 'train_loss': 0.1561080440459773, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588| 2000/2000 [11:54<00:00,  2.77it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588| 2000/2000 [11:54<00:00,  2.80it/s]\nsft_trl_done\n$ python scripts/train_grpo_trl.py --model-id Qwen/Qwen2.5-3B-Instruct --prompts-path data/processed/training_corpus_grpo_prompts.jsonl --output-dir checkpoints/sweeps/qwen-qwen2-5-3b-instruct --report-path outputs/reports/sweeps/qwen-qwen2-5-3b-instruct/grpo_trl_run.json --max-prompts 0 --max-steps 0 --epochs 1.0 --batch-size 2 --grad-accum 1 --num-generations 2 --max-prompt-length 384 --max-completion-length 64 --learning-rate 1e-06 --use-unsloth\n"
+  "source": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/reports/hf_training_status.json"
 }
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/manifest.json b/docs/results/submission_evidence/qwen_0_5b_1_5b/manifest.json
index fb9aa967b6aba73ae13fe8bf2e2bc9953aa17ab0..e132f6a06a58421e593d2d974be3fcb0d32d5a16 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b/manifest.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b/manifest.json
@@ -1,6 +1,6 @@
 {
   "status": "ok",
-  "generated_at_unix": 1777179035.763374,
+  "generated_at_unix": 1777182595.007497,
   "models": [
     {
       "run_id": "qwen-qwen2-5-0-5b-instruct",
@@ -9,9 +9,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "remote_completed_pending_artifact_upload",
-        "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-        "policy_ablation": "remote_completed_pending_artifact_upload"
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
       },
       "metrics": {
         "sft_train_loss": 0.19233327957964502,
@@ -51,9 +51,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "remote_completed_pending_artifact_upload",
-        "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-        "policy_ablation": "remote_completed_pending_artifact_upload"
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
       },
       "metrics": {
         "sft_train_loss": 0.11515871361242898,
@@ -89,111 +89,17 @@
   ],
   "artifact_repo": {
     "repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
-    "status": "pending_artifact_upload",
-    "files": [
-      ".gitattributes"
-    ],
-    "meaningful_file_count": 0,
+    "status": "skipped_local_only",
+    "files": [],
     "error": ""
   },
-  "remote_snapshot_used": "/Users/daver/.cache/huggingface/hub/models--TheJackBright--polyguard-openenv-training-full-artifacts/snapshots/f313e87ad0df089dbe586b469c8f0a34e05bc5cd",
+  "remote_snapshot_used": "",
   "training_space_status": {
     "status": "running",
-    "source": "https://thejackbright-polyguard-openenv-training-full.hf.space",
+    "source": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/reports/hf_training_status.json",
     "completed_run_ids": []
   },
-  "stage_records": [
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "sft_training",
-      "returncode": 0,
-      "elapsed_seconds": 257.387,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "grpo_training",
-      "returncode": 0,
-      "elapsed_seconds": 4230.645,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "sft_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 15.201,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "grpo_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 18.461,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "policy_ablation",
-      "returncode": 0,
-      "elapsed_seconds": 3.989,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "sft_training",
-      "returncode": 0,
-      "elapsed_seconds": 454.278,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "grpo_training",
-      "returncode": 0,
-      "elapsed_seconds": 5118.654,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "sft_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 17.128,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "grpo_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 21.528,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "policy_ablation",
-      "returncode": 0,
-      "elapsed_seconds": 4.001,
-      "completed": true
-    }
-  ],
+  "stage_records": [],
   "charts": {
     "qwen_0_5b_sft_training_loss": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/plots/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_training_loss.png",
     "qwen_0_5b_sft_token_accuracy": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/plots/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_token_accuracy.png",
@@ -220,18 +126,18 @@
   },
   "pending_artifacts": [
     "Qwen 0.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 0.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 0.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 0.5B grpo_training: not_seen_in_status",
+    "Qwen 0.5B policy_ablation: not_seen_in_status",
     "Qwen 0.5B postsave_inference_grpo.json: pending_artifact_upload",
     "Qwen 1.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 1.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 1.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 1.5B grpo_training: not_seen_in_status",
+    "Qwen 1.5B policy_ablation: not_seen_in_status",
     "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload"
   ],
   "reward_validation_errors": [],
   "primary_judge": "PolyGuard verifier/reward system",
   "bundle_zip": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/submission_bundle/qwen_0_5b_1_5b_evidence.zip",
-  "mirrored_file_count": 56
+  "mirrored_file_count": 58
 }
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/mirrored_files.json b/docs/results/submission_evidence/qwen_0_5b_1_5b/mirrored_files.json
index 61be0069bb7d7a3cade76d1a843b605934ce16c2..3a5de5e95f1cb728be681416f5b4c73422bdc8fb 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b/mirrored_files.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b/mirrored_files.json
@@ -50,6 +50,8 @@
   "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/submission_evidence_qwen_0_5b_1_5b/charts/local_available_combined/qwen_model_grpo_reward.png",
   "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/submission_evidence_qwen_0_5b_1_5b/charts/local_available_combined/reward_component_bars.png",
   "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/submission_evidence_qwen_0_5b_1_5b/charts/local_available_combined/train_holdout_gap.png",
+  "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/submission_evidence_qwen_0_5b_1_5b/charts/local_available_combined/sft_validity_reward.png",
+  "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/submission_evidence_qwen_0_5b_1_5b/charts/local_available_combined/inference_validity_reward.png",
   "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/submission_evidence_qwen_0_5b_1_5b/charts/local_available_combined/inference_latency_validity.png",
   "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/submission_evidence_qwen_0_5b_1_5b/charts/local_available_combined/anti_cheat_failure_rates.png",
   "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/docs/results/submission_evidence_qwen_0_5b_1_5b/charts/local_available_combined/policy_stack_avg_reward.png",
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/policy_ablation_avg_reward.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/policy_ablation_avg_reward.png
index b8a16a69c129c24b20c8ab712e219662b853e8ac..4baa16a56f2615342fadaaf8b08b3b6247f9824f 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/policy_ablation_avg_reward.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/policy_ablation_avg_reward.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/policy_ablation_exploit_detection.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/policy_ablation_exploit_detection.png
index b02893a92db120bde2f2a629c680c7191230edeb..9cd4e59749283b799fd201f4891e317e5114bffe 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/policy_ablation_exploit_detection.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/policy_ablation_exploit_detection.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/policy_ablation_legality.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/policy_ablation_legality.png
index a084c777866c2316a63e3ab9a6339d45606517a5..0d394038c07f85a7d92077d553ae570bfba07caf 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/policy_ablation_legality.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/policy_ablation_legality.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_final_sft_train_loss.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_final_sft_train_loss.png
index e624303fbcd1dcbc7e67edb578055310873bc7ad..faad3cf8e80a1a89048880cb1d9ad9caef5d77a8 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_final_sft_train_loss.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_final_sft_train_loss.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_postsave_latency.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_postsave_latency.png
index d5d8d458cfe55b068060be5cbed93d4f3ea2e15f..850bbc6cdb174041ac0bf912ea9e61943594d5eb 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_postsave_latency.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_postsave_latency.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_postsave_reward.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_postsave_reward.png
index eaf9687f4bd8f1fddf41434e8317105634a2366a..7efa5b5b6f9151b696747c77bfb565226b1c9e57 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_postsave_reward.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_postsave_reward.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_remote_completed_stage_durations.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_remote_completed_stage_durations.png
index db33a7a97a9a7470e3927df08f1b2c61a5331e05..8f9fdbd4ed1b3bbafe2d8d11c0abd602fa354888 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_remote_completed_stage_durations.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_remote_completed_stage_durations.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_sft_runtime.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_sft_runtime.png
index 692ae055aa330d28ddecde01f82d2e0fb984de79..0b755a7340b17cfe28c46132a56d46c0be69893e 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_sft_runtime.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_1_5b_sft_runtime.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_learning_rate.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_learning_rate.png
index ffd982a07fec0d80dff092afea033c65d3a06552..222b8f99d80c4b446a091c0cdaa298ba6bbde41d 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_learning_rate.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_learning_rate.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_token_accuracy.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_token_accuracy.png
index 91f0c0075c563b6915e2f8225a659d9f88c08bc8..f000cd04d336995480104589dee2d11c19316c5a 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_token_accuracy.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_token_accuracy.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_training_loss.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_training_loss.png
index 8ee344753fde4ea2476b340dbf618a9b12b1f94c..b225367050c41c65547905cd4bc2e71f3cf386d2 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_training_loss.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_training_loss.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_vs_1_5b_sft_loss_comparison.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_vs_1_5b_sft_loss_comparison.png
index 15a7de44aa9ec407cb7a8647624a67edb8bb38c6..549ab73213108e91d56f76aa8bd4c69353075013 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_vs_1_5b_sft_loss_comparison.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_vs_1_5b_sft_loss_comparison.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png
index d36b471da2f0902e2c513e98a16098be6ec9a515..1536e4dfd6347ca64b03d084d313338b0c1b17ae 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_1_5b_sft_learning_rate.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_1_5b_sft_learning_rate.png
index a8de709d9201c4d7a4fb502d3045104c0a8017a5..86065d55a1123ffbbc66c590400e0876a4dd6625 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_1_5b_sft_learning_rate.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_1_5b_sft_learning_rate.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_1_5b_sft_token_accuracy.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_1_5b_sft_token_accuracy.png
index 642d57b9cb8a88d2a602adcbc92e220df2fc1c6c..333d48c0b38669090a62004e648ccd3c481d7f2f 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_1_5b_sft_token_accuracy.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_1_5b_sft_token_accuracy.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_1_5b_sft_training_loss.png b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_1_5b_sft_training_loss.png
index c72e897e7360ab9ceaafaaf36dd867414c0694d9..d82b239d3c372b9ff6e6c38cb3807f2a92da29c2 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_1_5b_sft_training_loss.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b/qwen_1_5b_sft_training_loss.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/remote_stage_records.json b/docs/results/submission_evidence/qwen_0_5b_1_5b/remote_stage_records.json
index 26352611eeab0bb07b964c76298f3fa0f542711b..fe51488c7066f6687ef680d6bfaa4f7768ef205c 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b/remote_stage_records.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b/remote_stage_records.json
@@ -1,92 +1 @@
-[
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "sft_training",
-    "returncode": 0,
-    "elapsed_seconds": 257.387,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "grpo_training",
-    "returncode": 0,
-    "elapsed_seconds": 4230.645,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "sft_postsave_inference",
-    "returncode": 0,
-    "elapsed_seconds": 15.201,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "grpo_postsave_inference",
-    "returncode": 0,
-    "elapsed_seconds": 18.461,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "policy_ablation",
-    "returncode": 0,
-    "elapsed_seconds": 3.989,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "sft_training",
-    "returncode": 0,
-    "elapsed_seconds": 454.278,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "grpo_training",
-    "returncode": 0,
-    "elapsed_seconds": 5118.654,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "sft_postsave_inference",
-    "returncode": 0,
-    "elapsed_seconds": 17.128,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "grpo_postsave_inference",
-    "returncode": 0,
-    "elapsed_seconds": 21.528,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "policy_ablation",
-    "returncode": 0,
-    "elapsed_seconds": 4.001,
-    "completed": true
-  }
-]
+[]
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/runs/qwen-qwen2-5-0-5b-instruct/availability.json b/docs/results/submission_evidence/qwen_0_5b_1_5b/runs/qwen-qwen2-5-0-5b-instruct/availability.json
index d10ae0a2d52e93bf7afd4fe5560708fd2cc8e794..b5f3b3f6a8c939fed250ca5b7d973931ae5265c0 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b/runs/qwen-qwen2-5-0-5b-instruct/availability.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b/runs/qwen-qwen2-5-0-5b-instruct/availability.json
@@ -2,9 +2,9 @@
   "statuses": {
     "sft_training": "artifact_available",
     "sft_postsave_inference": "artifact_available",
-    "grpo_training": "remote_completed_pending_artifact_upload",
-    "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-    "policy_ablation": "remote_completed_pending_artifact_upload"
+    "grpo_training": "not_seen_in_status",
+    "grpo_postsave_inference": "not_seen_in_status",
+    "policy_ablation": "not_seen_in_status"
   },
   "metrics": {
     "sft_train_loss": 0.19233327957964502,
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/runs/qwen-qwen2-5-1-5b-instruct/availability.json b/docs/results/submission_evidence/qwen_0_5b_1_5b/runs/qwen-qwen2-5-1-5b-instruct/availability.json
index f2d95c49345fee0c966ee899582d2fc611158764..cd6bbfe2e707e61195c58a60743916794e9e0c02 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b/runs/qwen-qwen2-5-1-5b-instruct/availability.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b/runs/qwen-qwen2-5-1-5b-instruct/availability.json
@@ -2,9 +2,9 @@
   "statuses": {
     "sft_training": "artifact_available",
     "sft_postsave_inference": "artifact_available",
-    "grpo_training": "remote_completed_pending_artifact_upload",
-    "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-    "policy_ablation": "remote_completed_pending_artifact_upload"
+    "grpo_training": "not_seen_in_status",
+    "grpo_postsave_inference": "not_seen_in_status",
+    "policy_ablation": "not_seen_in_status"
   },
   "metrics": {
     "sft_train_loss": 0.11515871361242898,
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b/submission_summary.json b/docs/results/submission_evidence/qwen_0_5b_1_5b/submission_summary.json
index 559a39eee196526b0c832f9689a667397f11b61a..314b7c1caea767b13b585dc4c8d4e725530ba70f 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b/submission_summary.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b/submission_summary.json
@@ -1,6 +1,6 @@
 {
   "status": "ok",
-  "generated_at_unix": 1777179035.763374,
+  "generated_at_unix": 1777182595.007497,
   "models": [
     {
       "run_id": "qwen-qwen2-5-0-5b-instruct",
@@ -9,9 +9,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "remote_completed_pending_artifact_upload",
-        "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-        "policy_ablation": "remote_completed_pending_artifact_upload"
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
       },
       "metrics": {
         "sft_train_loss": 0.19233327957964502,
@@ -51,9 +51,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "remote_completed_pending_artifact_upload",
-        "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-        "policy_ablation": "remote_completed_pending_artifact_upload"
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
       },
       "metrics": {
         "sft_train_loss": 0.11515871361242898,
@@ -89,111 +89,17 @@
   ],
   "artifact_repo": {
     "repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
-    "status": "pending_artifact_upload",
-    "files": [
-      ".gitattributes"
-    ],
-    "meaningful_file_count": 0,
+    "status": "skipped_local_only",
+    "files": [],
     "error": ""
   },
-  "remote_snapshot_used": "/Users/daver/.cache/huggingface/hub/models--TheJackBright--polyguard-openenv-training-full-artifacts/snapshots/f313e87ad0df089dbe586b469c8f0a34e05bc5cd",
+  "remote_snapshot_used": "",
   "training_space_status": {
     "status": "running",
-    "source": "https://thejackbright-polyguard-openenv-training-full.hf.space",
+    "source": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/reports/hf_training_status.json",
     "completed_run_ids": []
   },
-  "stage_records": [
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "sft_training",
-      "returncode": 0,
-      "elapsed_seconds": 257.387,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "grpo_training",
-      "returncode": 0,
-      "elapsed_seconds": 4230.645,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "sft_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 15.201,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "grpo_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 18.461,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "policy_ablation",
-      "returncode": 0,
-      "elapsed_seconds": 3.989,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "sft_training",
-      "returncode": 0,
-      "elapsed_seconds": 454.278,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "grpo_training",
-      "returncode": 0,
-      "elapsed_seconds": 5118.654,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "sft_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 17.128,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "grpo_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 21.528,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "policy_ablation",
-      "returncode": 0,
-      "elapsed_seconds": 4.001,
-      "completed": true
-    }
-  ],
+  "stage_records": [],
   "charts": {
     "qwen_0_5b_sft_training_loss": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/plots/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_training_loss.png",
     "qwen_0_5b_sft_token_accuracy": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/plots/submission_evidence/qwen_0_5b_1_5b/qwen_0_5b_sft_token_accuracy.png",
@@ -220,14 +126,14 @@
   },
   "pending_artifacts": [
     "Qwen 0.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 0.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 0.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 0.5B grpo_training: not_seen_in_status",
+    "Qwen 0.5B policy_ablation: not_seen_in_status",
     "Qwen 0.5B postsave_inference_grpo.json: pending_artifact_upload",
     "Qwen 1.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 1.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 1.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 1.5B grpo_training: not_seen_in_status",
+    "Qwen 1.5B policy_ablation: not_seen_in_status",
     "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload"
   ],
   "reward_validation_errors": [],
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/artifact_repo_listing.json b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/artifact_repo_listing.json
index 5f23072480e95f65785211fc47071cef6078b859..99572004cc6cb602f33743e8e47c4177ebe1434d 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/artifact_repo_listing.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/artifact_repo_listing.json
@@ -1,91 +1,6 @@
 {
   "repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
-  "status": "ok",
-  "files": [
-    ".gitattributes",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/README.md",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/bundle_manifest.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/README.md",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/adapter_config.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/adapter_model.safetensors",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/added_tokens.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/chat_template.jinja",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/merges.txt",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/special_tokens_map.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/tokenizer.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/tokenizer_config.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/training_args.bin",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/vocab.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/added_tokens.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/chat_template.jinja",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/config.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/generation_config.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/merge_report.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/merges.txt",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/model.safetensors",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/special_tokens_map.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/tokenizer.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/tokenizer_config.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/vocab.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/README.md",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/adapter_config.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/adapter_model.safetensors",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/added_tokens.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/chat_template.jinja",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/merges.txt",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/special_tokens_map.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/tokenizer.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/tokenizer_config.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/training_args.bin",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/vocab.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/manifests/active_model_manifest.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/manifests/active_model_report_manifest.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/manifests/submission_evidence_manifest.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/acceptance_gate.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/active_model_manifest.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/anti_hacking_overfit_report.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/baselines.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/benchmark_report.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/benchmark_report.txt",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/dose_train.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/dosing_grpo.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/frontier_ready.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/graph_train.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_ablation_report.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_training_cycle/grpo_trl_run.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_training_cycle/hf_training_status.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run_auto.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run_fallback_check.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run_smoke.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run_strict_check.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/hf_sweep_summary.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/hf_training_status.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/improvement_report.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/improvement_report_benchmark.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/inference_benchmark.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/planner_grpo.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/plot_index.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/postsave_inference.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/postsave_inference_smoke.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/risk_train.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/robustness.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sft_run.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sft_trl_run.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/supervisor_grpo.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-0-5b-instruct/postsave_inference_sft.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-0-5b-instruct/run_metadata.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-0-5b-instruct/sft_history.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-0-5b-instruct/sft_trl_run.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-1-5b-instruct/postsave_inference_sft.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-1-5b-instruct/run_metadata.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-1-5b-instruct/sft_history.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-1-5b-instruct/sft_trl_run.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-3b-instruct/postsave_inference_sft.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-3b-instruct/run_metadata.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-3b-instruct/sft_history.json",
-    "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-3b-instruct/sft_trl_run.json"
-  ],
-  "meaningful_file_count": 82,
+  "status": "skipped_local_only",
+  "files": [],
   "error": ""
 }
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_latency.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_latency.png
index 0f7093d3dc5b03c1710e6cd800244e1f0c3d6f0c..22e5354ec7a37fe69cbbc1d7470164ead83ad14b 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_latency.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_latency.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_legality.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_legality.png
index 354ee4f38019cfceb7db848c00ee7bda6270c162..180ef4bb099a8b7c254db02e1281cd8e308bf058 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_legality.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_legality.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_reward.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_reward.png
index a334d8db37904ac9ab47a582cd1efb83545a7027..630724370ea5b0c19b60ae41173f4c835d37accb 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_reward.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_reward.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_reward_delta_by_seed.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_reward_delta_by_seed.png
index 5d068d5f289f2e688017d55fba2219c1d0154167..636dcbb7a4d53f984f1cf1ef549bf581e6792604 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_reward_delta_by_seed.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_full_pipeline_reward_delta_by_seed.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_polyguard_report.json b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_polyguard_report.json
index 0e50fc2cc335c77af3fcf4dde5e9e15b2927fcb8..5c5e60b456dcf60eb577b0bc1ace243e64706b41 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_polyguard_report.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/basic_llm_vs_polyguard_report.json
@@ -16,7 +16,7 @@
     "basic_llm": {
       "episodes": 8,
       "avg_reward": 0.762,
-      "avg_latency_seconds": 0.0044,
+      "avg_latency_seconds": 0.0039,
       "legality_rate": 1.0,
       "exploit_or_failure_rate": 0.25,
       "candidate_diversity": 1
@@ -24,7 +24,7 @@
     "sft_policy": {
       "episodes": 8,
       "avg_reward": 0.818,
-      "avg_latency_seconds": 0.0012,
+      "avg_latency_seconds": 0.0013,
       "legality_rate": 1.0,
       "exploit_or_failure_rate": 0.0,
       "candidate_diversity": 2
@@ -32,7 +32,7 @@
     "full_polyguard_pipeline": {
       "episodes": 8,
       "avg_reward": 0.805,
-      "avg_latency_seconds": 0.5021,
+      "avg_latency_seconds": 0.3852,
       "legality_rate": 1.0,
       "exploit_or_failure_rate": 0.0,
       "candidate_diversity": 2
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/hf_status_snapshot.json b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/hf_status_snapshot.json
index adec7032d7fae6ba4ca73ed347e0176c38aa961f..146b6639d2c42f8978b6cd32d4f5cf2a4941948b 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/hf_status_snapshot.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/hf_status_snapshot.json
@@ -1,6 +1,6 @@
 {
   "status": "running",
-  "started_at": 1777162756.623835,
+  "started_at": 1777180786.0648105,
   "finished_at": null,
   "commands": [
     {
@@ -9,7 +9,7 @@
         "scripts/bootstrap_data.py"
       ],
       "returncode": 0,
-      "elapsed_seconds": 0.577
+      "elapsed_seconds": 0.507
     },
     {
       "args": [
@@ -22,255 +22,7 @@
         "--with-hf"
       ],
       "returncode": 0,
-      "elapsed_seconds": 3.86
-    },
-    {
-      "args": [
-        "python",
-        "scripts/train_sft_trl.py",
-        "--model-id",
-        "Qwen/Qwen2.5-0.5B-Instruct",
-        "--dataset-path",
-        "data/processed/training_corpus_sft.json",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct",
-        "--report-path",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/sft_trl_run.json",
-        "--epochs",
-        "2",
-        "--max-steps",
-        "0",
-        "--batch-size",
-        "2",
-        "--max-seq-len",
-        "512",
-        "--learning-rate",
-        "2e-05",
-        "--use-unsloth"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 257.387
-    },
-    {
-      "args": [
-        "python",
-        "scripts/train_grpo_trl.py",
-        "--model-id",
-        "Qwen/Qwen2.5-0.5B-Instruct",
-        "--prompts-path",
-        "data/processed/training_corpus_grpo_prompts.jsonl",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct",
-        "--report-path",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/grpo_trl_run.json",
-        "--max-prompts",
-        "0",
-        "--max-steps",
-        "0",
-        "--epochs",
-        "1.0",
-        "--batch-size",
-        "2",
-        "--grad-accum",
-        "1",
-        "--num-generations",
-        "2",
-        "--max-prompt-length",
-        "384",
-        "--max-completion-length",
-        "64",
-        "--learning-rate",
-        "1e-06",
-        "--use-unsloth"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 4230.645
-    },
-    {
-      "args": [
-        "python",
-        "scripts/merge_adapters_safe.py",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/sft_adapter",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/merged"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 7.303
-    },
-    {
-      "args": [
-        "python",
-        "scripts/test_inference_postsave.py",
-        "--samples",
-        "5",
-        "--base-model",
-        "Qwen/Qwen2.5-0.5B-Instruct",
-        "--merged-model",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/merged",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/sft_adapter",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/postsave_inference_sft.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 15.201
-    },
-    {
-      "args": [
-        "python",
-        "scripts/test_inference_postsave.py",
-        "--samples",
-        "5",
-        "--base-model",
-        "Qwen/Qwen2.5-0.5B-Instruct",
-        "--merged-model",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/missing_merged_grpo",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct/grpo_adapter",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/postsave_inference_grpo.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 18.461
-    },
-    {
-      "args": [
-        "python",
-        "scripts/evaluate_policy_ablations.py",
-        "--episodes",
-        "8",
-        "--checkpoint-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-0-5b-instruct",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-0-5b-instruct/grpo_ablation_report.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 3.989
-    },
-    {
-      "args": [
-        "python",
-        "scripts/train_sft_trl.py",
-        "--model-id",
-        "Qwen/Qwen2.5-1.5B-Instruct",
-        "--dataset-path",
-        "data/processed/training_corpus_sft.json",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct",
-        "--report-path",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/sft_trl_run.json",
-        "--epochs",
-        "2",
-        "--max-steps",
-        "0",
-        "--batch-size",
-        "2",
-        "--max-seq-len",
-        "512",
-        "--learning-rate",
-        "2e-05",
-        "--use-unsloth"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 454.278
-    },
-    {
-      "args": [
-        "python",
-        "scripts/train_grpo_trl.py",
-        "--model-id",
-        "Qwen/Qwen2.5-1.5B-Instruct",
-        "--prompts-path",
-        "data/processed/training_corpus_grpo_prompts.jsonl",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct",
-        "--report-path",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/grpo_trl_run.json",
-        "--max-prompts",
-        "0",
-        "--max-steps",
-        "0",
-        "--epochs",
-        "1.0",
-        "--batch-size",
-        "2",
-        "--grad-accum",
-        "1",
-        "--num-generations",
-        "2",
-        "--max-prompt-length",
-        "384",
-        "--max-completion-length",
-        "64",
-        "--learning-rate",
-        "1e-06",
-        "--use-unsloth"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 5118.654
-    },
-    {
-      "args": [
-        "python",
-        "scripts/merge_adapters_safe.py",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/sft_adapter",
-        "--output-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/merged"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 10.6
-    },
-    {
-      "args": [
-        "python",
-        "scripts/test_inference_postsave.py",
-        "--samples",
-        "5",
-        "--base-model",
-        "Qwen/Qwen2.5-1.5B-Instruct",
-        "--merged-model",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/merged",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/sft_adapter",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/postsave_inference_sft.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 17.128
-    },
-    {
-      "args": [
-        "python",
-        "scripts/test_inference_postsave.py",
-        "--samples",
-        "5",
-        "--base-model",
-        "Qwen/Qwen2.5-1.5B-Instruct",
-        "--merged-model",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/missing_merged_grpo",
-        "--adapter-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct/grpo_adapter",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/postsave_inference_grpo.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 21.528
-    },
-    {
-      "args": [
-        "python",
-        "scripts/evaluate_policy_ablations.py",
-        "--episodes",
-        "8",
-        "--checkpoint-dir",
-        "checkpoints/sweeps/qwen-qwen2-5-1-5b-instruct",
-        "--output",
-        "outputs/reports/sweeps/qwen-qwen2-5-1-5b-instruct/grpo_ablation_report.json"
-      ],
-      "returncode": 0,
-      "elapsed_seconds": 4.001
+      "elapsed_seconds": 3.695
     },
     {
       "args": [
@@ -297,15 +49,13 @@
         "--use-unsloth"
       ],
       "returncode": 0,
-      "elapsed_seconds": 736.955
+      "elapsed_seconds": 737.28
     }
   ],
-  "artifact_repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
+  "artifact_repo_id": "adithya9903/polyguard-openenv-training-3b-artifacts",
+  "training_mode": "full",
   "model_sweep": [
-    "Qwen/Qwen2.5-0.5B-Instruct",
-    "Qwen/Qwen2.5-1.5B-Instruct",
     "Qwen/Qwen2.5-3B-Instruct"
   ],
-  "source": "https://thejackbright-polyguard-openenv-training-full.hf.space",
-  "log_tail": "\u2588\u2588\u2588\u2588\u2588\u258a| 1965/2000 [11:41<00:10,  3.22it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1966/2000 [11:42<00:11,  2.91it/s]\n                                                   \n{'loss': 0.0449, 'grad_norm': 0.8585970401763916, 'learning_rate': 3.7e-07, 'num_tokens': 1350951.0, 'mean_token_accuracy': 0.9767054915428162, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1966/2000 [11:42<00:11,  2.91it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1967/2000 [11:42<00:11,  2.85it/s]\n                                                   \n{'loss': 0.0518, 'grad_norm': 0.7478350400924683, 'learning_rate': 3.6e-07, 'num_tokens': 1351975.0, 'mean_token_accuracy': 0.9755381345748901, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1967/2000 [11:42<00:11,  2.85it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1968/2000 [11:42<00:11,  2.69it/s]\n                                                   \n{'loss': 0.0442, 'grad_norm': 0.8791924715042114, 'learning_rate': 3.5000000000000004e-07, 'num_tokens': 1352578.0, 'mean_token_accuracy': 0.9767054915428162, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1968/2000 [11:42<00:11,  2.69it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1969/2000 [11:43<00:11,  2.70it/s]\n                                                   \n{'loss': 0.0488, 'grad_norm': 0.6195839047431946, 'learning_rate': 3.4000000000000003e-07, 'num_tokens': 1353602.0, 'mean_token_accuracy': 0.9706457853317261, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1969/2000 [11:43<00:11,  2.70it/s]\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1970/2000 [11:43<00:09,  3.27it/s]\n                                                   \n{'loss': 0.0047, 'grad_norm': 0.8639671802520752, 'learning_rate': 3.3e-07, 'num_tokens': 1353784.0, 'mean_token_accuracy': 1.0, 'epoch': 1.97}\n\n 98%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1970/2000 [11:43<00:09,  3.27it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1971/2000 [11:43<00:07,  3.82it/s]\n                                                   \n{'loss': 0.0048, 'grad_norm': 0.8560010194778442, 'learning_rate': 3.2e-07, 'num_tokens': 1353966.0, 'mean_token_accuracy': 1.0, 'epoch': 1.97}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1971/2000 [11:43<00:07,  3.82it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1972/2000 [11:43<00:08,  3.41it/s]\n                                                   \n{'loss': 0.0382, 'grad_norm': 0.8542295694351196, 'learning_rate': 3.1000000000000005e-07, 'num_tokens': 1354990.0, 'mean_token_accuracy': 0.9823874831199646, 'epoch': 1.97}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1972/2000 [11:43<00:08,  3.41it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1973/2000 [11:44<00:08,  3.02it/s]\n                                                   \n{'loss': 0.033, 'grad_norm': 0.7632898688316345, 'learning_rate': 3.0000000000000004e-07, 'num_tokens': 1355593.0, 'mean_token_accuracy': 0.9833610653877258, 'epoch': 1.97}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1973/2000 [11:44<00:08,  3.02it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1974/2000 [11:44<00:08,  2.92it/s]\n                                                   \n{'loss': 0.0582, 'grad_norm': 0.7546073198318481, 'learning_rate': 2.9000000000000003e-07, 'num_tokens': 1356617.0, 'mean_token_accuracy': 0.9706457853317261, 'epoch': 1.97}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u258a| 1974/2000 [11:44<00:08,  2.92it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1975/2000 [11:44<00:08,  2.85it/s]\n                                                   \n{'loss': 0.0607, 'grad_norm': 0.9100231528282166, 'learning_rate': 2.8e-07, 'num_tokens': 1357641.0, 'mean_token_accuracy': 0.9706457853317261, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1975/2000 [11:44<00:08,  2.85it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1976/2000 [11:45<00:08,  2.81it/s]\n                                                   \n{'loss': 0.0522, 'grad_norm': 0.9831849932670593, 'learning_rate': 2.7e-07, 'num_tokens': 1358665.0, 'mean_token_accuracy': 0.9726027250289917, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1976/2000 [11:45<00:08,  2.81it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1977/2000 [11:45<00:08,  2.67it/s]\n                                                   \n{'loss': 0.0455, 'grad_norm': 0.7770227789878845, 'learning_rate': 2.6e-07, 'num_tokens': 1359268.0, 'mean_token_accuracy': 0.9783693552017212, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1977/2000 [11:45<00:08,  2.67it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1978/2000 [11:46<00:08,  2.58it/s]\n                                                   \n{'loss': 0.043, 'grad_norm': 0.9285680055618286, 'learning_rate': 2.5000000000000004e-07, 'num_tokens': 1359871.0, 'mean_token_accuracy': 0.981697142124176, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1978/2000 [11:46<00:08,  2.58it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1979/2000 [11:46<00:08,  2.62it/s]\n                                                   \n{'loss': 0.0475, 'grad_norm': 0.725820004940033, 'learning_rate': 2.4000000000000003e-07, 'num_tokens': 1360895.0, 'mean_token_accuracy': 0.9784736037254333, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1979/2000 [11:46<00:08,  2.62it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1980/2000 [11:46<00:07,  2.54it/s]\n                                                   \n{'loss': 0.0523, 'grad_norm': 0.9508711099624634, 'learning_rate': 2.3000000000000002e-07, 'num_tokens': 1361498.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1980/2000 [11:46<00:07,  2.54it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1981/2000 [11:47<00:07,  2.49it/s]\n                                                   \n{'loss': 0.0461, 'grad_norm': 0.9076665639877319, 'learning_rate': 2.2e-07, 'num_tokens': 1362101.0, 'mean_token_accuracy': 0.980033278465271, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1981/2000 [11:47<00:07,  2.49it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1982/2000 [11:47<00:05,  3.07it/s]\n                                                   \n{'loss': 0.0049, 'grad_norm': 0.8733372092247009, 'learning_rate': 2.1000000000000003e-07, 'num_tokens': 1362283.0, 'mean_token_accuracy': 1.0, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1982/2000 [11:47<00:05,  3.07it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1983/2000 [11:47<00:06,  2.83it/s]\n                                                   \n{'loss': 0.0499, 'grad_norm': 1.0219769477844238, 'learning_rate': 2.0000000000000002e-07, 'num_tokens': 1362886.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1983/2000 [11:47<00:06,  2.83it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1984/2000 [11:48<00:05,  2.79it/s]\n                                                   \n{'loss': 0.047, 'grad_norm': 0.6855125427246094, 'learning_rate': 1.9e-07, 'num_tokens': 1363910.0, 'mean_token_accuracy': 0.9794520735740662, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1984/2000 [11:48<00:05,  2.79it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1985/2000 [11:48<00:05,  2.66it/s]\n                                                   \n{'loss': 0.053, 'grad_norm': 0.9592626094818115, 'learning_rate': 1.8e-07, 'num_tokens': 1364513.0, 'mean_token_accuracy': 0.9717137813568115, 'epoch': 1.98}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1985/2000 [11:48<00:05,  2.66it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1986/2000 [11:49<00:05,  2.67it/s]\n                                                   \n{'loss': 0.0634, 'grad_norm': 0.9822715520858765, 'learning_rate': 1.7000000000000001e-07, 'num_tokens': 1365537.0, 'mean_token_accuracy': 0.9696673154830933, 'epoch': 1.99}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1986/2000 [11:49<00:05,  2.67it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1987/2000 [11:49<00:04,  3.24it/s]\n                                                   \n{'loss': 0.005, 'grad_norm': 0.9051101207733154, 'learning_rate': 1.6e-07, 'num_tokens': 1365719.0, 'mean_token_accuracy': 1.0, 'epoch': 1.99}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1987/2000 [11:49<00:04,  3.24it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1988/2000 [11:49<00:03,  3.06it/s]\n                                                   \n{'loss': 0.057, 'grad_norm': 0.7732815742492676, 'learning_rate': 1.5000000000000002e-07, 'num_tokens': 1366743.0, 'mean_token_accuracy': 0.9716242551803589, 'epoch': 1.99}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1988/2000 [11:49<00:03,  3.06it/s]\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1989/2000 [11:50<00:03,  2.82it/s]\n                                                   \n{'loss': 0.0488, 'grad_norm': 1.0130807161331177, 'learning_rate': 1.4e-07, 'num_tokens': 1367346.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 1.99}\n\n 99%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1989/2000 [11:50<00:03,  2.82it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1990/2000 [11:50<00:03,  2.79it/s]\n                                                   \n{'loss': 0.0502, 'grad_norm': 0.7733030319213867, 'learning_rate': 1.3e-07, 'num_tokens': 1368370.0, 'mean_token_accuracy': 0.976516604423523, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1990/2000 [11:50<00:03,  2.79it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1991/2000 [11:50<00:03,  2.65it/s]\n                                                   \n{'loss': 0.033, 'grad_norm': 0.8099549412727356, 'learning_rate': 1.2000000000000002e-07, 'num_tokens': 1368973.0, 'mean_token_accuracy': 0.981697142124176, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1991/2000 [11:50<00:03,  2.65it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1992/2000 [11:51<00:03,  2.57it/s]\n                                                   \n{'loss': 0.0505, 'grad_norm': 0.8513318300247192, 'learning_rate': 1.1e-07, 'num_tokens': 1369576.0, 'mean_token_accuracy': 0.9733777046203613, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1992/2000 [11:51<00:03,  2.57it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1993/2000 [11:51<00:02,  2.51it/s]\n                                                   \n{'loss': 0.0471, 'grad_norm': 0.8666603565216064, 'learning_rate': 1.0000000000000001e-07, 'num_tokens': 1370179.0, 'mean_token_accuracy': 0.9783693552017212, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1993/2000 [11:51<00:02,  2.51it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1994/2000 [11:51<00:01,  3.08it/s]\n                                                   \n{'loss': 0.0046, 'grad_norm': 0.8277124166488647, 'learning_rate': 9e-08, 'num_tokens': 1370361.0, 'mean_token_accuracy': 1.0, 'epoch': 1.99}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1994/2000 [11:51<00:01,  3.08it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1995/2000 [11:52<00:01,  2.83it/s]\n                                                   \n{'loss': 0.0491, 'grad_norm': 0.7712334990501404, 'learning_rate': 8e-08, 'num_tokens': 1370964.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1995/2000 [11:52<00:01,  2.83it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1996/2000 [11:52<00:01,  2.80it/s]\n                                                   \n{'loss': 0.037, 'grad_norm': 0.8775883316993713, 'learning_rate': 7e-08, 'num_tokens': 1371988.0, 'mean_token_accuracy': 0.980430543422699, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1996/2000 [11:52<00:01,  2.80it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1997/2000 [11:53<00:01,  2.77it/s]\n                                                   \n{'loss': 0.0377, 'grad_norm': 0.7055721282958984, 'learning_rate': 6.000000000000001e-08, 'num_tokens': 1373012.0, 'mean_token_accuracy': 0.9814090132713318, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1997/2000 [11:53<00:01,  2.77it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1998/2000 [11:53<00:00,  3.33it/s]\n                                                   \n{'loss': 0.005, 'grad_norm': 0.8954693675041199, 'learning_rate': 5.0000000000000004e-08, 'num_tokens': 1373194.0, 'mean_token_accuracy': 1.0, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1998/2000 [11:53<00:00,  3.33it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1999/2000 [11:53<00:00,  2.98it/s]\n                                                   \n{'loss': 0.0314, 'grad_norm': 0.7444577217102051, 'learning_rate': 4e-08, 'num_tokens': 1373797.0, 'mean_token_accuracy': 0.9883527159690857, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2589| 1999/2000 [11:53<00:00,  2.98it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588| 2000/2000 [11:54<00:00,  2.77it/s]\n                                                   \n{'loss': 0.0525, 'grad_norm': 1.007545828819275, 'learning_rate': 3.0000000000000004e-08, 'num_tokens': 1374400.0, 'mean_token_accuracy': 0.9750415682792664, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588| 2000/2000 [11:54<00:00,  2.77it/s]\n                                                   \n{'train_runtime': 714.3473, 'train_samples_per_second': 5.6, 'train_steps_per_second': 2.8, 'train_loss': 0.1561080440459773, 'epoch': 2.0}\n\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588| 2000/2000 [11:54<00:00,  2.77it/s]\n100%|\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588\u2588| 2000/2000 [11:54<00:00,  2.80it/s]\nsft_trl_done\n$ python scripts/train_grpo_trl.py --model-id Qwen/Qwen2.5-3B-Instruct --prompts-path data/processed/training_corpus_grpo_prompts.jsonl --output-dir checkpoints/sweeps/qwen-qwen2-5-3b-instruct --report-path outputs/reports/sweeps/qwen-qwen2-5-3b-instruct/grpo_trl_run.json --max-prompts 0 --max-steps 0 --epochs 1.0 --batch-size 2 --grad-accum 1 --num-generations 2 --max-prompt-length 384 --max-completion-length 64 --learning-rate 1e-06 --use-unsloth\n"
+  "source": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/reports/hf_training_status.json"
 }
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/manifest.json b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/manifest.json
index 3da0dfffbe111a4157d841c447612b8e57a82adc..e17e1e5c0d7ed592f9b1e1bfba3f35a8e796bcfc 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/manifest.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/manifest.json
@@ -1,6 +1,6 @@
 {
   "status": "ok",
-  "generated_at_unix": 1777179904.792038,
+  "generated_at_unix": 1777182606.439865,
   "models": [
     {
       "run_id": "qwen-qwen2-5-0-5b-instruct",
@@ -9,9 +9,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "remote_completed_pending_artifact_upload",
-        "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-        "policy_ablation": "remote_completed_pending_artifact_upload"
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
       },
       "metrics": {
         "sft_train_loss": 0.19233327957964502,
@@ -51,9 +51,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "remote_completed_pending_artifact_upload",
-        "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-        "policy_ablation": "remote_completed_pending_artifact_upload"
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
       },
       "metrics": {
         "sft_train_loss": 0.11515871361242898,
@@ -98,14 +98,14 @@
         "policy_ablation": "not_seen_in_status"
       },
       "metrics": {
-        "sft_train_loss": 0.18184852770145518,
-        "sft_train_runtime": 372.1845,
+        "sft_train_loss": 0.15688225453009363,
+        "sft_train_runtime": 715.2908,
         "sft_examples_used": 2000,
         "sft_history_steps": 2001,
-        "sft_first_loss": 3.569,
-        "sft_last_loss": 0.0037,
-        "sft_best_loss": 0.0011,
-        "sft_last_token_accuracy": 1.0,
+        "sft_first_loss": 3.5687,
+        "sft_last_loss": 0.054,
+        "sft_best_loss": 0.0022,
+        "sft_last_token_accuracy": 0.9750415682792664,
         "sft_valid_rate": 1.0,
         "sft_avg_env_reward": 0.762,
         "sft_avg_latency_seconds": 2.748,
@@ -131,199 +131,24 @@
   ],
   "artifact_repo": {
     "repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
-    "status": "ok",
-    "files": [
-      ".gitattributes",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/README.md",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/bundle_manifest.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/README.md",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/adapter_config.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/adapter_model.safetensors",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/added_tokens.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/chat_template.jinja",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/merges.txt",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/special_tokens_map.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/tokenizer.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/tokenizer_config.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/training_args.bin",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/vocab.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/added_tokens.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/chat_template.jinja",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/config.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/generation_config.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/merge_report.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/merges.txt",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/model.safetensors",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/special_tokens_map.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/tokenizer.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/tokenizer_config.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/vocab.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/README.md",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/adapter_config.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/adapter_model.safetensors",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/added_tokens.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/chat_template.jinja",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/merges.txt",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/special_tokens_map.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/tokenizer.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/tokenizer_config.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/training_args.bin",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/vocab.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/manifests/active_model_manifest.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/manifests/active_model_report_manifest.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/manifests/submission_evidence_manifest.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/acceptance_gate.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/active_model_manifest.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/anti_hacking_overfit_report.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/baselines.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/benchmark_report.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/benchmark_report.txt",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/dose_train.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/dosing_grpo.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/frontier_ready.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/graph_train.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_ablation_report.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_training_cycle/grpo_trl_run.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_training_cycle/hf_training_status.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run_auto.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run_fallback_check.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run_smoke.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run_strict_check.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/hf_sweep_summary.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/hf_training_status.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/improvement_report.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/improvement_report_benchmark.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/inference_benchmark.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/planner_grpo.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/plot_index.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/postsave_inference.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/postsave_inference_smoke.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/risk_train.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/robustness.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sft_run.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sft_trl_run.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/supervisor_grpo.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-0-5b-instruct/postsave_inference_sft.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-0-5b-instruct/run_metadata.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-0-5b-instruct/sft_history.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-0-5b-instruct/sft_trl_run.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-1-5b-instruct/postsave_inference_sft.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-1-5b-instruct/run_metadata.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-1-5b-instruct/sft_history.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-1-5b-instruct/sft_trl_run.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-3b-instruct/postsave_inference_sft.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-3b-instruct/run_metadata.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-3b-instruct/sft_history.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-3b-instruct/sft_trl_run.json"
-    ],
-    "meaningful_file_count": 82,
+    "status": "skipped_local_only",
+    "files": [],
     "error": ""
   },
-  "remote_snapshot_used": "/Users/daver/.cache/huggingface/hub/models--TheJackBright--polyguard-openenv-training-full-artifacts/snapshots/63acc4b1a4167e78b785814b5de63c5a913f9099",
+  "remote_snapshot_used": "",
   "training_space_status": {
     "status": "running",
-    "source": "https://thejackbright-polyguard-openenv-training-full.hf.space",
+    "source": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/reports/hf_training_status.json",
     "completed_run_ids": []
   },
   "stage_records": [
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "sft_training",
-      "returncode": 0,
-      "elapsed_seconds": 257.387,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "grpo_training",
-      "returncode": 0,
-      "elapsed_seconds": 4230.645,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "sft_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 15.201,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "grpo_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 18.461,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "policy_ablation",
-      "returncode": 0,
-      "elapsed_seconds": 3.989,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "sft_training",
-      "returncode": 0,
-      "elapsed_seconds": 454.278,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "grpo_training",
-      "returncode": 0,
-      "elapsed_seconds": 5118.654,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "sft_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 17.128,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "grpo_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 21.528,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "policy_ablation",
-      "returncode": 0,
-      "elapsed_seconds": 4.001,
-      "completed": true
-    },
     {
       "run_id": "qwen-qwen2-5-3b-instruct",
       "model_id": "Qwen/Qwen2.5-3B-Instruct",
       "label": "Qwen 3B",
       "stage": "sft_training",
       "returncode": 0,
-      "elapsed_seconds": 736.955,
+      "elapsed_seconds": 737.28,
       "completed": true
     }
   ],
@@ -356,14 +181,14 @@
   },
   "pending_artifacts": [
     "Qwen 0.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 0.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 0.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 0.5B grpo_training: not_seen_in_status",
+    "Qwen 0.5B policy_ablation: not_seen_in_status",
     "Qwen 0.5B postsave_inference_grpo.json: pending_artifact_upload",
     "Qwen 1.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 1.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 1.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 1.5B grpo_training: not_seen_in_status",
+    "Qwen 1.5B policy_ablation: not_seen_in_status",
     "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload",
     "Qwen 3B grpo_history.json: pending_artifact_upload",
     "Qwen 3B grpo_postsave_inference: not_seen_in_status",
@@ -374,5 +199,5 @@
   "reward_validation_errors": [],
   "primary_judge": "PolyGuard verifier/reward system",
   "bundle_zip": "submission_bundle/qwen_0_5b_1_5b_3b_evidence.zip",
-  "mirrored_file_count": 64
+  "mirrored_file_count": 66
 }
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/mirrored_files.json b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/mirrored_files.json
index c770cc817b74a8bcae5ba1403b48e3a863d4318f..5b5f89e3d57beab16a27bb3c54fdf83050de07bb 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/mirrored_files.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/mirrored_files.json
@@ -58,6 +58,8 @@
   "docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/local_available_combined/qwen_model_grpo_reward.png",
   "docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/local_available_combined/reward_component_bars.png",
   "docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/local_available_combined/train_holdout_gap.png",
+  "docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/local_available_combined/sft_validity_reward.png",
+  "docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/local_available_combined/inference_validity_reward.png",
   "docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/local_available_combined/inference_latency_validity.png",
   "docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/local_available_combined/anti_cheat_failure_rates.png",
   "docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/local_available_combined/policy_stack_avg_reward.png",
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_avg_reward.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_avg_reward.png
index b8a16a69c129c24b20c8ab712e219662b853e8ac..4baa16a56f2615342fadaaf8b08b3b6247f9824f 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_avg_reward.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_avg_reward.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_exploit_detection.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_exploit_detection.png
index b02893a92db120bde2f2a629c680c7191230edeb..9cd4e59749283b799fd201f4891e317e5114bffe 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_exploit_detection.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_exploit_detection.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_legality.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_legality.png
index a084c777866c2316a63e3ab9a6339d45606517a5..0d394038c07f85a7d92077d553ae570bfba07caf 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_legality.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/policy_ablation_legality.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_learning_rate.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_learning_rate.png
index eeaee74949d469af50bcf55e1d66b8847e491f78..fd2177cf3dc3a560ce5ecbd35643d74afdfb5e74 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_learning_rate.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_learning_rate.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_token_accuracy.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_token_accuracy.png
index 176b10578333a39d8ea7e5a324635821effc2343..7536c6c7a9bf801667d66b1ef90d596a4babc2a1 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_token_accuracy.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_token_accuracy.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_training_loss.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_training_loss.png
index 82738c12da437f5bad55185490b0f85bbbf2b40d..c02c8607fe3391354ab2842bd8a4b915dca9acfa 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_training_loss.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen-qwen2-5-3b-instruct_sft_training_loss.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_final_sft_train_loss.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_final_sft_train_loss.png
index b0ac61084306b4eb2130df9f58696d2980c3f96f..bb59d81635691028de9facebc81176101aa2c96c 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_final_sft_train_loss.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_final_sft_train_loss.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_postsave_latency.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_postsave_latency.png
index b9d1dcdb391fd27ab28296ac3874fb7ff02b5633..e402f82d70d8172b87407953f1c7489f5adae266 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_postsave_latency.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_postsave_latency.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_postsave_reward.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_postsave_reward.png
index 9c3af01d6fb94de66e47a204bfe5a545edd93330..1270598b557f9896c48ba0267bb6ceb96982d792 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_postsave_reward.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_postsave_reward.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_remote_completed_stage_durations.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_remote_completed_stage_durations.png
index 47db263568828b5cee9fe01e3a103dad716e063d..acc838c0f6d0a4df5e224e9bbc255bc66bb4a321 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_remote_completed_stage_durations.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_remote_completed_stage_durations.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_sft_runtime.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_sft_runtime.png
index 297e6547bd5e074ff09271eee72d670824892595..ecdef2a719de99be652196bcb0df57a243ae7cbe 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_sft_runtime.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_1_5b_sft_runtime.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_learning_rate.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_learning_rate.png
index ffd982a07fec0d80dff092afea033c65d3a06552..222b8f99d80c4b446a091c0cdaa298ba6bbde41d 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_learning_rate.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_learning_rate.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_token_accuracy.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_token_accuracy.png
index 91f0c0075c563b6915e2f8225a659d9f88c08bc8..f000cd04d336995480104589dee2d11c19316c5a 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_token_accuracy.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_token_accuracy.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_training_loss.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_training_loss.png
index 8ee344753fde4ea2476b340dbf618a9b12b1f94c..b225367050c41c65547905cd4bc2e71f3cf386d2 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_training_loss.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_sft_training_loss.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_vs_1_5b_sft_loss_comparison.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_vs_1_5b_sft_loss_comparison.png
index 2118ea2b4b2a5dee26ac5177eb0e2ae2bbd48bce..486c32ae421f42e7c511b810ed0540ad43351e0c 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_vs_1_5b_sft_loss_comparison.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_vs_1_5b_sft_loss_comparison.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png
index 2782296497a7a8b3c5134a67aafb5b288e0113dd..880bf409233e709dd4a37fe94f36935af77afc53 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_0_5b_vs_1_5b_sft_token_accuracy_comparison.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_learning_rate.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_learning_rate.png
index a8de709d9201c4d7a4fb502d3045104c0a8017a5..86065d55a1123ffbbc66c590400e0876a4dd6625 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_learning_rate.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_learning_rate.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_token_accuracy.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_token_accuracy.png
index 642d57b9cb8a88d2a602adcbc92e220df2fc1c6c..333d48c0b38669090a62004e648ccd3c481d7f2f 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_token_accuracy.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_token_accuracy.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_training_loss.png b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_training_loss.png
index c72e897e7360ab9ceaafaaf36dd867414c0694d9..d82b239d3c372b9ff6e6c38cb3807f2a92da29c2 100644
Binary files a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_training_loss.png and b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/qwen_1_5b_sft_training_loss.png differ
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/remote_stage_records.json b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/remote_stage_records.json
index f3fe78e328e89d17c930dcf22e0d42cf569bdc56..0d4ec10624444f055ef993cdf78232e8657bfe0f 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/remote_stage_records.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/remote_stage_records.json
@@ -1,101 +1,11 @@
 [
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "sft_training",
-    "returncode": 0,
-    "elapsed_seconds": 257.387,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "grpo_training",
-    "returncode": 0,
-    "elapsed_seconds": 4230.645,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "sft_postsave_inference",
-    "returncode": 0,
-    "elapsed_seconds": 15.201,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "grpo_postsave_inference",
-    "returncode": 0,
-    "elapsed_seconds": 18.461,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-0-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-    "label": "Qwen 0.5B",
-    "stage": "policy_ablation",
-    "returncode": 0,
-    "elapsed_seconds": 3.989,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "sft_training",
-    "returncode": 0,
-    "elapsed_seconds": 454.278,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "grpo_training",
-    "returncode": 0,
-    "elapsed_seconds": 5118.654,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "sft_postsave_inference",
-    "returncode": 0,
-    "elapsed_seconds": 17.128,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "grpo_postsave_inference",
-    "returncode": 0,
-    "elapsed_seconds": 21.528,
-    "completed": true
-  },
-  {
-    "run_id": "qwen-qwen2-5-1-5b-instruct",
-    "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-    "label": "Qwen 1.5B",
-    "stage": "policy_ablation",
-    "returncode": 0,
-    "elapsed_seconds": 4.001,
-    "completed": true
-  },
   {
     "run_id": "qwen-qwen2-5-3b-instruct",
     "model_id": "Qwen/Qwen2.5-3B-Instruct",
     "label": "Qwen 3B",
     "stage": "sft_training",
     "returncode": 0,
-    "elapsed_seconds": 736.955,
+    "elapsed_seconds": 737.28,
     "completed": true
   }
 ]
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-0-5b-instruct/availability.json b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-0-5b-instruct/availability.json
index d10ae0a2d52e93bf7afd4fe5560708fd2cc8e794..b5f3b3f6a8c939fed250ca5b7d973931ae5265c0 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-0-5b-instruct/availability.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-0-5b-instruct/availability.json
@@ -2,9 +2,9 @@
   "statuses": {
     "sft_training": "artifact_available",
     "sft_postsave_inference": "artifact_available",
-    "grpo_training": "remote_completed_pending_artifact_upload",
-    "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-    "policy_ablation": "remote_completed_pending_artifact_upload"
+    "grpo_training": "not_seen_in_status",
+    "grpo_postsave_inference": "not_seen_in_status",
+    "policy_ablation": "not_seen_in_status"
   },
   "metrics": {
     "sft_train_loss": 0.19233327957964502,
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-1-5b-instruct/availability.json b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-1-5b-instruct/availability.json
index f2d95c49345fee0c966ee899582d2fc611158764..cd6bbfe2e707e61195c58a60743916794e9e0c02 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-1-5b-instruct/availability.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-1-5b-instruct/availability.json
@@ -2,9 +2,9 @@
   "statuses": {
     "sft_training": "artifact_available",
     "sft_postsave_inference": "artifact_available",
-    "grpo_training": "remote_completed_pending_artifact_upload",
-    "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-    "policy_ablation": "remote_completed_pending_artifact_upload"
+    "grpo_training": "not_seen_in_status",
+    "grpo_postsave_inference": "not_seen_in_status",
+    "policy_ablation": "not_seen_in_status"
   },
   "metrics": {
     "sft_train_loss": 0.11515871361242898,
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/availability.json b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/availability.json
index 7353b93e049865d037f56de7e4e4e7ef22ecc017..c2b2f0d86ff434e9f0ecf69d3f4d2ecd250fbd9b 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/availability.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/availability.json
@@ -7,14 +7,14 @@
     "policy_ablation": "not_seen_in_status"
   },
   "metrics": {
-    "sft_train_loss": 0.18184852770145518,
-    "sft_train_runtime": 372.1845,
+    "sft_train_loss": 0.15688225453009363,
+    "sft_train_runtime": 715.2908,
     "sft_examples_used": 2000,
     "sft_history_steps": 2001,
-    "sft_first_loss": 3.569,
-    "sft_last_loss": 0.0037,
-    "sft_best_loss": 0.0011,
-    "sft_last_token_accuracy": 1.0,
+    "sft_first_loss": 3.5687,
+    "sft_last_loss": 0.054,
+    "sft_best_loss": 0.0022,
+    "sft_last_token_accuracy": 0.9750415682792664,
     "sft_valid_rate": 1.0,
     "sft_avg_env_reward": 0.762,
     "sft_avg_latency_seconds": 2.748,
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/run_metadata.json b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/run_metadata.json
index 5e7e4a3ead8458fcf1611ff54bdbc630d0bbdfea..577d040703282034a876241e57b4e60351835b78 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/run_metadata.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/run_metadata.json
@@ -1,9 +1,9 @@
 {
-  "training_mode": "sft-baseline",
+  "training_mode": "full",
   "model_id": "Qwen/Qwen2.5-3B-Instruct",
-  "model_index": 2,
-  "sft_epochs": 1,
+  "model_index": 0,
+  "sft_epochs": 2,
   "sft_max_steps": 0,
-  "sft_batch_size": 1,
+  "sft_batch_size": 2,
   "sft_learning_rate": 2e-05
 }
\ No newline at end of file
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_history.json b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_history.json
index bd04c896532f5a5ae0fa8959979709a445323fb4..f758dfb2665830f1438ea48cde077992c954c848 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_history.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_history.json
@@ -1,18011 +1,18011 @@
 [
   {
-    "loss": 3.569,
+    "loss": 3.5687,
     "grad_norm": NaN,
     "learning_rate": 2e-05,
-    "num_tokens": 91.0,
+    "num_tokens": 182.0,
     "mean_token_accuracy": 0.5555555820465088,
-    "epoch": 0.0005,
+    "epoch": 0.001,
     "step": 1
   },
   {
-    "loss": 3.569,
-    "grad_norm": NaN,
+    "loss": 1.6305,
+    "grad_norm": 1.434348702430725,
     "learning_rate": 2e-05,
-    "num_tokens": 182.0,
-    "mean_token_accuracy": 0.5555555820465088,
-    "epoch": 0.001,
+    "num_tokens": 785.0,
+    "mean_token_accuracy": 0.7387686967849731,
+    "epoch": 0.002,
     "step": 2
   },
   {
-    "loss": 1.2853,
-    "grad_norm": 1.139764428138733,
-    "learning_rate": 2e-05,
-    "num_tokens": 694.0,
-    "mean_token_accuracy": 0.7710371613502502,
-    "epoch": 0.0015,
+    "loss": 1.0453,
+    "grad_norm": 0.8542668223381042,
+    "learning_rate": 1.9990000000000003e-05,
+    "num_tokens": 1809.0,
+    "mean_token_accuracy": 0.8111546039581299,
+    "epoch": 0.003,
     "step": 3
   },
   {
-    "loss": 3.5581,
+    "loss": 3.5283,
     "grad_norm": NaN,
-    "learning_rate": 1.9990000000000003e-05,
-    "num_tokens": 785.0,
+    "learning_rate": 1.9980000000000002e-05,
+    "num_tokens": 1991.0,
     "mean_token_accuracy": 0.5555555820465088,
-    "epoch": 0.002,
+    "epoch": 0.004,
     "step": 4
   },
   {
-    "loss": 0.8917,
-    "grad_norm": 1.0447810888290405,
-    "learning_rate": 1.9990000000000003e-05,
-    "num_tokens": 1297.0,
-    "mean_token_accuracy": 0.8297455906867981,
-    "epoch": 0.0025,
+    "loss": 1.0695,
+    "grad_norm": 0.7922297716140747,
+    "learning_rate": 1.9980000000000002e-05,
+    "num_tokens": 3015.0,
+    "mean_token_accuracy": 0.8091976642608643,
+    "epoch": 0.005,
     "step": 5
   },
   {
-    "loss": 1.1935,
-    "grad_norm": 0.8309267163276672,
-    "learning_rate": 1.9980000000000002e-05,
-    "num_tokens": 1809.0,
-    "mean_token_accuracy": 0.7925636172294617,
-    "epoch": 0.003,
+    "loss": 1.5782,
+    "grad_norm": 1.3316136598587036,
+    "learning_rate": 1.9970000000000004e-05,
+    "num_tokens": 3618.0,
+    "mean_token_accuracy": 0.7504159808158875,
+    "epoch": 0.006,
     "step": 6
   },
   {
-    "loss": 3.5163,
-    "grad_norm": 4.351670742034912,
-    "learning_rate": 1.9970000000000004e-05,
-    "num_tokens": 1900.0,
-    "mean_token_accuracy": 0.5444444417953491,
-    "epoch": 0.0035,
+    "loss": 1.5577,
+    "grad_norm": 1.1409932374954224,
+    "learning_rate": 1.9960000000000002e-05,
+    "num_tokens": 4221.0,
+    "mean_token_accuracy": 0.742096483707428,
+    "epoch": 0.007,
     "step": 7
   },
   {
-    "loss": 3.4885,
-    "grad_norm": 4.261757850646973,
-    "learning_rate": 1.9960000000000002e-05,
-    "num_tokens": 1991.0,
-    "mean_token_accuracy": 0.5444444417953491,
-    "epoch": 0.004,
+    "loss": 1.0424,
+    "grad_norm": 0.6543182134628296,
+    "learning_rate": 1.9950000000000004e-05,
+    "num_tokens": 5245.0,
+    "mean_token_accuracy": 0.8101761341094971,
+    "epoch": 0.008,
     "step": 8
   },
   {
-    "loss": 1.2711,
-    "grad_norm": 0.8578795790672302,
-    "learning_rate": 1.9950000000000004e-05,
-    "num_tokens": 2503.0,
-    "mean_token_accuracy": 0.7690802216529846,
-    "epoch": 0.0045,
+    "loss": 1.2472,
+    "grad_norm": 0.7124780416488647,
+    "learning_rate": 1.9940000000000002e-05,
+    "num_tokens": 6269.0,
+    "mean_token_accuracy": 0.7778865098953247,
+    "epoch": 0.009,
     "step": 9
   },
   {
-    "loss": 0.8313,
-    "grad_norm": 0.6491284370422363,
-    "learning_rate": 1.9940000000000002e-05,
-    "num_tokens": 3015.0,
-    "mean_token_accuracy": 0.8473581075668335,
-    "epoch": 0.005,
+    "loss": 1.5383,
+    "grad_norm": 0.9386733174324036,
+    "learning_rate": 1.9930000000000004e-05,
+    "num_tokens": 6872.0,
+    "mean_token_accuracy": 0.7470881938934326,
+    "epoch": 0.01,
     "step": 10
   },
   {
-    "loss": 1.2098,
-    "grad_norm": 0.8803694844245911,
-    "learning_rate": 1.9930000000000004e-05,
-    "num_tokens": 3527.0,
-    "mean_token_accuracy": 0.7886496782302856,
-    "epoch": 0.0055,
+    "loss": 1.263,
+    "grad_norm": 0.8532474040985107,
+    "learning_rate": 1.9920000000000002e-05,
+    "num_tokens": 7896.0,
+    "mean_token_accuracy": 0.7759295701980591,
+    "epoch": 0.011,
     "step": 11
   },
   {
-    "loss": 3.3912,
-    "grad_norm": 3.3331027030944824,
-    "learning_rate": 1.9920000000000002e-05,
-    "num_tokens": 3618.0,
-    "mean_token_accuracy": 0.5444444417953491,
-    "epoch": 0.006,
+    "loss": 1.4861,
+    "grad_norm": 0.8685364723205566,
+    "learning_rate": 1.9910000000000004e-05,
+    "num_tokens": 8499.0,
+    "mean_token_accuracy": 0.7587354183197021,
+    "epoch": 0.012,
     "step": 12
   },
   {
-    "loss": 1.1925,
-    "grad_norm": 0.6839883327484131,
-    "learning_rate": 1.9910000000000004e-05,
-    "num_tokens": 4130.0,
-    "mean_token_accuracy": 0.7808219194412231,
-    "epoch": 0.0065,
+    "loss": 1.2178,
+    "grad_norm": 0.7260677218437195,
+    "learning_rate": 1.9900000000000003e-05,
+    "num_tokens": 9102.0,
+    "mean_token_accuracy": 0.7986688613891602,
+    "epoch": 0.013,
     "step": 13
   },
   {
-    "loss": 3.3481,
-    "grad_norm": 2.9968008995056152,
-    "learning_rate": 1.9900000000000003e-05,
-    "num_tokens": 4221.0,
-    "mean_token_accuracy": 0.5444444417953491,
-    "epoch": 0.007,
+    "loss": 1.5306,
+    "grad_norm": 0.7731572985649109,
+    "learning_rate": 1.989e-05,
+    "num_tokens": 9705.0,
+    "mean_token_accuracy": 0.7487520575523376,
+    "epoch": 0.014,
     "step": 14
   },
   {
-    "loss": 0.8284,
-    "grad_norm": 0.5385816693305969,
-    "learning_rate": 1.989e-05,
-    "num_tokens": 4733.0,
-    "mean_token_accuracy": 0.8414872884750366,
-    "epoch": 0.0075,
+    "loss": 1.4868,
+    "grad_norm": 0.8427240252494812,
+    "learning_rate": 1.9880000000000003e-05,
+    "num_tokens": 10308.0,
+    "mean_token_accuracy": 0.7454242706298828,
+    "epoch": 0.015,
     "step": 15
   },
   {
-    "loss": 1.2033,
-    "grad_norm": 0.5642092823982239,
-    "learning_rate": 1.9880000000000003e-05,
-    "num_tokens": 5245.0,
+    "loss": 1.1892,
+    "grad_norm": 0.5352721214294434,
+    "learning_rate": 1.987e-05,
+    "num_tokens": 11332.0,
     "mean_token_accuracy": 0.7827788591384888,
-    "epoch": 0.008,
+    "epoch": 0.016,
     "step": 16
   },
   {
-    "loss": 1.2305,
-    "grad_norm": 0.6205269694328308,
-    "learning_rate": 1.987e-05,
-    "num_tokens": 5757.0,
-    "mean_token_accuracy": 0.7769080400466919,
-    "epoch": 0.0085,
+    "loss": 3.2702,
+    "grad_norm": 2.2780392169952393,
+    "learning_rate": 1.9860000000000003e-05,
+    "num_tokens": 11514.0,
+    "mean_token_accuracy": 0.5444444417953491,
+    "epoch": 0.017,
     "step": 17
   },
   {
-    "loss": 1.1978,
-    "grad_norm": 0.5339632630348206,
-    "learning_rate": 1.9860000000000003e-05,
-    "num_tokens": 6269.0,
-    "mean_token_accuracy": 0.7886496782302856,
-    "epoch": 0.009,
+    "loss": 1.0321,
+    "grad_norm": 0.4644306004047394,
+    "learning_rate": 1.985e-05,
+    "num_tokens": 12538.0,
+    "mean_token_accuracy": 0.8043052554130554,
+    "epoch": 0.018,
     "step": 18
   },
   {
-    "loss": 3.2635,
-    "grad_norm": 2.3871994018554688,
-    "learning_rate": 1.985e-05,
-    "num_tokens": 6360.0,
+    "loss": 3.235,
+    "grad_norm": 2.1294195652008057,
+    "learning_rate": 1.9840000000000003e-05,
+    "num_tokens": 12720.0,
     "mean_token_accuracy": 0.5444444417953491,
-    "epoch": 0.0095,
+    "epoch": 0.019,
     "step": 19
   },
   {
-    "loss": 1.1722,
-    "grad_norm": 0.5115076303482056,
-    "learning_rate": 1.9840000000000003e-05,
-    "num_tokens": 6872.0,
-    "mean_token_accuracy": 0.7886496782302856,
-    "epoch": 0.01,
+    "loss": 1.4911,
+    "grad_norm": 0.6255882382392883,
+    "learning_rate": 1.983e-05,
+    "num_tokens": 13323.0,
+    "mean_token_accuracy": 0.7470881938934326,
+    "epoch": 0.02,
     "step": 20
   },
   {
-    "loss": 1.234,
-    "grad_norm": 0.7502650618553162,
-    "learning_rate": 1.983e-05,
-    "num_tokens": 7384.0,
-    "mean_token_accuracy": 0.7710371613502502,
-    "epoch": 0.0105,
+    "loss": 0.9522,
+    "grad_norm": 0.41015884280204773,
+    "learning_rate": 1.982e-05,
+    "num_tokens": 14347.0,
+    "mean_token_accuracy": 0.8170254230499268,
+    "epoch": 0.021,
     "step": 21
   },
   {
-    "loss": 1.2009,
-    "grad_norm": 0.563306450843811,
-    "learning_rate": 1.982e-05,
-    "num_tokens": 7896.0,
-    "mean_token_accuracy": 0.7827788591384888,
-    "epoch": 0.011,
+    "loss": 1.1611,
+    "grad_norm": 0.5679000616073608,
+    "learning_rate": 1.9810000000000002e-05,
+    "num_tokens": 14950.0,
+    "mean_token_accuracy": 0.7986688613891602,
+    "epoch": 0.022,
     "step": 22
   },
   {
-    "loss": 3.2024,
-    "grad_norm": 2.1435375213623047,
-    "learning_rate": 1.9810000000000002e-05,
-    "num_tokens": 7987.0,
-    "mean_token_accuracy": 0.5444444417953491,
-    "epoch": 0.0115,
+    "loss": 1.4054,
+    "grad_norm": 0.5944789052009583,
+    "learning_rate": 1.98e-05,
+    "num_tokens": 15553.0,
+    "mean_token_accuracy": 0.7587354183197021,
+    "epoch": 0.023,
     "step": 23
   },
   {
-    "loss": 1.1136,
-    "grad_norm": 0.4755318760871887,
-    "learning_rate": 1.98e-05,
-    "num_tokens": 8499.0,
-    "mean_token_accuracy": 0.7964774966239929,
-    "epoch": 0.012,
+    "loss": 1.1512,
+    "grad_norm": 0.42472371459007263,
+    "learning_rate": 1.9790000000000002e-05,
+    "num_tokens": 16577.0,
+    "mean_token_accuracy": 0.790606677532196,
+    "epoch": 0.024,
     "step": 24
   },
   {
-    "loss": 0.81,
-    "grad_norm": 0.42654362320899963,
-    "learning_rate": 1.9790000000000002e-05,
-    "num_tokens": 9011.0,
-    "mean_token_accuracy": 0.8454011678695679,
-    "epoch": 0.0125,
+    "loss": 1.3923,
+    "grad_norm": 0.5697343945503235,
+    "learning_rate": 1.978e-05,
+    "num_tokens": 17180.0,
+    "mean_token_accuracy": 0.7670549154281616,
+    "epoch": 0.025,
     "step": 25
   },
   {
-    "loss": 3.1658,
-    "grad_norm": 2.022304058074951,
-    "learning_rate": 1.978e-05,
-    "num_tokens": 9102.0,
-    "mean_token_accuracy": 0.5444444417953491,
-    "epoch": 0.013,
+    "loss": 0.9853,
+    "grad_norm": 0.38519924879074097,
+    "learning_rate": 1.9770000000000002e-05,
+    "num_tokens": 18204.0,
+    "mean_token_accuracy": 0.8091976642608643,
+    "epoch": 0.026,
     "step": 26
   },
   {
-    "loss": 3.1525,
-    "grad_norm": 1.9966037273406982,
-    "learning_rate": 1.9770000000000002e-05,
-    "num_tokens": 9193.0,
-    "mean_token_accuracy": 0.5444444417953491,
-    "epoch": 0.0135,
+    "loss": 1.4271,
+    "grad_norm": 0.5397033095359802,
+    "learning_rate": 1.976e-05,
+    "num_tokens": 18807.0,
+    "mean_token_accuracy": 0.7637271285057068,
+    "epoch": 0.027,
     "step": 27
   },
   {
-    "loss": 1.1701,
-    "grad_norm": 0.43180903792381287,
-    "learning_rate": 1.976e-05,
-    "num_tokens": 9705.0,
-    "mean_token_accuracy": 0.78669273853302,
-    "epoch": 0.014,
+    "loss": 3.1053,
+    "grad_norm": 1.8741865158081055,
+    "learning_rate": 1.9750000000000002e-05,
+    "num_tokens": 18989.0,
+    "mean_token_accuracy": 0.5555555820465088,
+    "epoch": 0.028,
     "step": 28
   },
   {
-    "loss": 1.1161,
-    "grad_norm": 0.49122628569602966,
-    "learning_rate": 1.9750000000000002e-05,
-    "num_tokens": 10217.0,
-    "mean_token_accuracy": 0.7808219194412231,
-    "epoch": 0.0145,
+    "loss": 1.1496,
+    "grad_norm": 0.4000399112701416,
+    "learning_rate": 1.974e-05,
+    "num_tokens": 20013.0,
+    "mean_token_accuracy": 0.7876712083816528,
+    "epoch": 0.029,
     "step": 29
   },
   {
-    "loss": 3.1096,
-    "grad_norm": 1.9505829811096191,
-    "learning_rate": 1.974e-05,
-    "num_tokens": 10308.0,
+    "loss": 3.0776,
+    "grad_norm": 1.8549185991287231,
+    "learning_rate": 1.9730000000000003e-05,
+    "num_tokens": 20195.0,
     "mean_token_accuracy": 0.5555555820465088,
-    "epoch": 0.015,
+    "epoch": 0.03,
     "step": 30
   },
   {
-    "loss": 1.0957,
-    "grad_norm": 0.4052703380584717,
-    "learning_rate": 1.9730000000000003e-05,
-    "num_tokens": 10820.0,
-    "mean_token_accuracy": 0.7945205569267273,
-    "epoch": 0.0155,
+    "loss": 1.4506,
+    "grad_norm": 0.5350305438041687,
+    "learning_rate": 1.972e-05,
+    "num_tokens": 20798.0,
+    "mean_token_accuracy": 0.7470881938934326,
+    "epoch": 0.031,
     "step": 31
   },
   {
-    "loss": 1.1922,
-    "grad_norm": 0.4599268436431885,
-    "learning_rate": 1.972e-05,
-    "num_tokens": 11332.0,
-    "mean_token_accuracy": 0.7788649797439575,
-    "epoch": 0.016,
+    "loss": 0.96,
+    "grad_norm": 0.37083858251571655,
+    "learning_rate": 1.9710000000000003e-05,
+    "num_tokens": 21822.0,
+    "mean_token_accuracy": 0.8180038928985596,
+    "epoch": 0.032,
     "step": 32
   },
   {
-    "loss": 3.0661,
-    "grad_norm": 1.9074920415878296,
-    "learning_rate": 1.9710000000000003e-05,
-    "num_tokens": 11423.0,
-    "mean_token_accuracy": 0.5555555820465088,
-    "epoch": 0.0165,
+    "loss": 1.0767,
+    "grad_norm": 0.38996753096580505,
+    "learning_rate": 1.97e-05,
+    "num_tokens": 22846.0,
+    "mean_token_accuracy": 0.7994129061698914,
+    "epoch": 0.033,
     "step": 33
   },
   {
-    "loss": 3.0517,
-    "grad_norm": 1.9043670892715454,
-    "learning_rate": 1.97e-05,
-    "num_tokens": 11514.0,
+    "loss": 3.0208,
+    "grad_norm": 1.8172383308410645,
+    "learning_rate": 1.9690000000000003e-05,
+    "num_tokens": 23028.0,
     "mean_token_accuracy": 0.5666666626930237,
-    "epoch": 0.017,
+    "epoch": 0.034,
     "step": 34
   },
   {
-    "loss": 0.8217,
-    "grad_norm": 0.43874070048332214,
-    "learning_rate": 1.9690000000000003e-05,
-    "num_tokens": 12026.0,
-    "mean_token_accuracy": 0.835616409778595,
-    "epoch": 0.0175,
+    "loss": 1.1118,
+    "grad_norm": 0.5008355975151062,
+    "learning_rate": 1.968e-05,
+    "num_tokens": 23631.0,
+    "mean_token_accuracy": 0.8086522221565247,
+    "epoch": 0.035,
     "step": 35
   },
   {
-    "loss": 1.1533,
-    "grad_norm": 0.4097289741039276,
-    "learning_rate": 1.968e-05,
-    "num_tokens": 12538.0,
-    "mean_token_accuracy": 0.7827788591384888,
-    "epoch": 0.018,
+    "loss": 1.1633,
+    "grad_norm": 0.5407512187957764,
+    "learning_rate": 1.9670000000000003e-05,
+    "num_tokens": 24234.0,
+    "mean_token_accuracy": 0.7970049977302551,
+    "epoch": 0.036,
     "step": 36
   },
   {
-    "loss": 3.0079,
-    "grad_norm": 1.8589015007019043,
-    "learning_rate": 1.9670000000000003e-05,
-    "num_tokens": 12629.0,
-    "mean_token_accuracy": 0.5666666626930237,
-    "epoch": 0.0185,
+    "loss": 0.9154,
+    "grad_norm": 0.3705298602581024,
+    "learning_rate": 1.966e-05,
+    "num_tokens": 25258.0,
+    "mean_token_accuracy": 0.8209393620491028,
+    "epoch": 0.037,
     "step": 37
   },
   {
-    "loss": 2.9929,
-    "grad_norm": 1.8493101596832275,
-    "learning_rate": 1.966e-05,
-    "num_tokens": 12720.0,
-    "mean_token_accuracy": 0.5666666626930237,
-    "epoch": 0.019,
+    "loss": 1.0989,
+    "grad_norm": 0.37387895584106445,
+    "learning_rate": 1.9650000000000003e-05,
+    "num_tokens": 26282.0,
+    "mean_token_accuracy": 0.790606677532196,
+    "epoch": 0.038,
     "step": 38
   },
   {
-    "loss": 2.9771,
-    "grad_norm": 1.823657751083374,
-    "learning_rate": 1.9650000000000003e-05,
-    "num_tokens": 12811.0,
-    "mean_token_accuracy": 0.5666666626930237,
-    "epoch": 0.0195,
+    "loss": 1.4277,
+    "grad_norm": 0.5334008932113647,
+    "learning_rate": 1.9640000000000002e-05,
+    "num_tokens": 26885.0,
+    "mean_token_accuracy": 0.760399341583252,
+    "epoch": 0.039,
     "step": 39
   },
   {
-    "loss": 1.1322,
-    "grad_norm": 0.41579654812812805,
-    "learning_rate": 1.9640000000000002e-05,
-    "num_tokens": 13323.0,
-    "mean_token_accuracy": 0.7847357988357544,
-    "epoch": 0.02,
+    "loss": 2.9389,
+    "grad_norm": 1.7391901016235352,
+    "learning_rate": 1.9630000000000003e-05,
+    "num_tokens": 27067.0,
+    "mean_token_accuracy": 0.5666666626930237,
+    "epoch": 0.04,
     "step": 40
   },
   {
-    "loss": 1.0436,
-    "grad_norm": 0.4191758632659912,
-    "learning_rate": 1.9630000000000003e-05,
-    "num_tokens": 13835.0,
-    "mean_token_accuracy": 0.7964774966239929,
-    "epoch": 0.0205,
+    "loss": 1.1188,
+    "grad_norm": 0.4909788966178894,
+    "learning_rate": 1.9620000000000002e-05,
+    "num_tokens": 27670.0,
+    "mean_token_accuracy": 0.8103161454200745,
+    "epoch": 0.041,
     "step": 41
   },
   {
-    "loss": 0.7707,
-    "grad_norm": 0.389350026845932,
-    "learning_rate": 1.9620000000000002e-05,
-    "num_tokens": 14347.0,
-    "mean_token_accuracy": 0.8473581075668335,
-    "epoch": 0.021,
+    "loss": 0.9534,
+    "grad_norm": 0.3624725043773651,
+    "learning_rate": 1.9610000000000004e-05,
+    "num_tokens": 28694.0,
+    "mean_token_accuracy": 0.8228963017463684,
+    "epoch": 0.042,
     "step": 42
   },
   {
-    "loss": 0.7557,
-    "grad_norm": 0.3683435320854187,
-    "learning_rate": 1.9610000000000004e-05,
-    "num_tokens": 14859.0,
-    "mean_token_accuracy": 0.8493150472640991,
-    "epoch": 0.0215,
+    "loss": 1.0759,
+    "grad_norm": 0.4780445098876953,
+    "learning_rate": 1.9600000000000002e-05,
+    "num_tokens": 29297.0,
+    "mean_token_accuracy": 0.8053244352340698,
+    "epoch": 0.043,
     "step": 43
   },
   {
-    "loss": 2.9037,
-    "grad_norm": 1.7245700359344482,
-    "learning_rate": 1.9600000000000002e-05,
-    "num_tokens": 14950.0,
+    "loss": 2.8836,
+    "grad_norm": 1.6791250705718994,
+    "learning_rate": 1.9590000000000004e-05,
+    "num_tokens": 29479.0,
     "mean_token_accuracy": 0.5777778029441833,
-    "epoch": 0.022,
+    "epoch": 0.044,
     "step": 44
   },
   {
-    "loss": 2.8901,
-    "grad_norm": 1.7086819410324097,
-    "learning_rate": 1.9590000000000004e-05,
-    "num_tokens": 15041.0,
-    "mean_token_accuracy": 0.5777778029441833,
-    "epoch": 0.0225,
+    "loss": 1.0788,
+    "grad_norm": 0.3796207010746002,
+    "learning_rate": 1.9580000000000002e-05,
+    "num_tokens": 30503.0,
+    "mean_token_accuracy": 0.7945205569267273,
+    "epoch": 0.045,
     "step": 45
   },
   {
-    "loss": 1.0387,
-    "grad_norm": 0.40467050671577454,
-    "learning_rate": 1.9580000000000002e-05,
-    "num_tokens": 15553.0,
-    "mean_token_accuracy": 0.8023483157157898,
-    "epoch": 0.023,
+    "loss": 1.3712,
+    "grad_norm": 0.5122112035751343,
+    "learning_rate": 1.957e-05,
+    "num_tokens": 31106.0,
+    "mean_token_accuracy": 0.7570715546607971,
+    "epoch": 0.046,
     "step": 46
   },
   {
-    "loss": 1.0567,
-    "grad_norm": 0.4369414746761322,
-    "learning_rate": 1.957e-05,
-    "num_tokens": 16065.0,
-    "mean_token_accuracy": 0.790606677532196,
-    "epoch": 0.0235,
+    "loss": 1.0591,
+    "grad_norm": 0.460268497467041,
+    "learning_rate": 1.9560000000000002e-05,
+    "num_tokens": 31709.0,
+    "mean_token_accuracy": 0.8069883584976196,
+    "epoch": 0.047,
     "step": 47
   },
   {
-    "loss": 1.1317,
-    "grad_norm": 0.4135839641094208,
-    "learning_rate": 1.9560000000000002e-05,
-    "num_tokens": 16577.0,
-    "mean_token_accuracy": 0.7847357988357544,
-    "epoch": 0.024,
+    "loss": 1.3361,
+    "grad_norm": 0.522340714931488,
+    "learning_rate": 1.955e-05,
+    "num_tokens": 32312.0,
+    "mean_token_accuracy": 0.7653909921646118,
+    "epoch": 0.048,
     "step": 48
   },
   {
-    "loss": 1.0284,
-    "grad_norm": 0.3962143063545227,
-    "learning_rate": 1.955e-05,
-    "num_tokens": 17089.0,
-    "mean_token_accuracy": 0.8062622547149658,
-    "epoch": 0.0245,
+    "loss": 1.044,
+    "grad_norm": 0.4595264792442322,
+    "learning_rate": 1.9540000000000003e-05,
+    "num_tokens": 32915.0,
+    "mean_token_accuracy": 0.8153077960014343,
+    "epoch": 0.049,
     "step": 49
   },
   {
-    "loss": 2.8211,
-    "grad_norm": 1.6713019609451294,
-    "learning_rate": 1.9540000000000003e-05,
-    "num_tokens": 17180.0,
+    "loss": 2.801,
+    "grad_norm": 1.6471343040466309,
+    "learning_rate": 1.953e-05,
+    "num_tokens": 33097.0,
     "mean_token_accuracy": 0.5777778029441833,
-    "epoch": 0.025,
+    "epoch": 0.05,
     "step": 50
   },
   {
-    "loss": 0.751,
-    "grad_norm": 0.3764272928237915,
-    "learning_rate": 1.953e-05,
-    "num_tokens": 17692.0,
-    "mean_token_accuracy": 0.8375734090805054,
-    "epoch": 0.0255,
+    "loss": 1.0425,
+    "grad_norm": 0.45320287346839905,
+    "learning_rate": 1.9520000000000003e-05,
+    "num_tokens": 33700.0,
+    "mean_token_accuracy": 0.8119800090789795,
+    "epoch": 0.051,
     "step": 51
   },
   {
-    "loss": 1.1035,
-    "grad_norm": 0.4032706618309021,
-    "learning_rate": 1.9520000000000003e-05,
-    "num_tokens": 18204.0,
-    "mean_token_accuracy": 0.7769080400466919,
-    "epoch": 0.026,
+    "loss": 0.9233,
+    "grad_norm": 0.3386388123035431,
+    "learning_rate": 1.951e-05,
+    "num_tokens": 34724.0,
+    "mean_token_accuracy": 0.816046953201294,
+    "epoch": 0.052,
     "step": 52
   },
   {
-    "loss": 1.066,
-    "grad_norm": 0.3904367685317993,
-    "learning_rate": 1.951e-05,
-    "num_tokens": 18716.0,
-    "mean_token_accuracy": 0.7984344363212585,
-    "epoch": 0.0265,
+    "loss": 1.0603,
+    "grad_norm": 0.3830195367336273,
+    "learning_rate": 1.95e-05,
+    "num_tokens": 35748.0,
+    "mean_token_accuracy": 0.7935420870780945,
+    "epoch": 0.053,
     "step": 53
   },
   {
-    "loss": 2.7715,
-    "grad_norm": 1.6729886531829834,
-    "learning_rate": 1.95e-05,
-    "num_tokens": 18807.0,
-    "mean_token_accuracy": 0.5777778029441833,
-    "epoch": 0.027,
+    "loss": 1.3035,
+    "grad_norm": 0.48781096935272217,
+    "learning_rate": 1.949e-05,
+    "num_tokens": 36351.0,
+    "mean_token_accuracy": 0.760399341583252,
+    "epoch": 0.054,
     "step": 54
   },
   {
-    "loss": 2.7583,
-    "grad_norm": 1.668998122215271,
-    "learning_rate": 1.949e-05,
-    "num_tokens": 18898.0,
-    "mean_token_accuracy": 0.5777778029441833,
-    "epoch": 0.0275,
+    "loss": 0.7661,
+    "grad_norm": 0.32136020064353943,
+    "learning_rate": 1.948e-05,
+    "num_tokens": 37375.0,
+    "mean_token_accuracy": 0.8512719869613647,
+    "epoch": 0.055,
     "step": 55
   },
   {
-    "loss": 2.7429,
-    "grad_norm": 1.6743063926696777,
-    "learning_rate": 1.948e-05,
-    "num_tokens": 18989.0,
-    "mean_token_accuracy": 0.5777778029441833,
-    "epoch": 0.028,
+    "loss": 1.0288,
+    "grad_norm": 0.47111162543296814,
+    "learning_rate": 1.947e-05,
+    "num_tokens": 37978.0,
+    "mean_token_accuracy": 0.8086522221565247,
+    "epoch": 0.056,
     "step": 56
   },
   {
-    "loss": 1.1043,
-    "grad_norm": 0.41544175148010254,
-    "learning_rate": 1.947e-05,
-    "num_tokens": 19501.0,
-    "mean_token_accuracy": 0.7808219194412231,
-    "epoch": 0.0285,
+    "loss": 0.9022,
+    "grad_norm": 0.3371954560279846,
+    "learning_rate": 1.946e-05,
+    "num_tokens": 39002.0,
+    "mean_token_accuracy": 0.8277886509895325,
+    "epoch": 0.057,
     "step": 57
   },
   {
-    "loss": 1.0547,
-    "grad_norm": 0.4136095345020294,
-    "learning_rate": 1.946e-05,
-    "num_tokens": 20013.0,
-    "mean_token_accuracy": 0.8003913760185242,
-    "epoch": 0.029,
+    "loss": 1.3471,
+    "grad_norm": 0.493735134601593,
+    "learning_rate": 1.9450000000000002e-05,
+    "num_tokens": 39605.0,
+    "mean_token_accuracy": 0.7570715546607971,
+    "epoch": 0.058,
     "step": 58
   },
   {
-    "loss": 2.7022,
-    "grad_norm": 1.6811003684997559,
-    "learning_rate": 1.9450000000000002e-05,
-    "num_tokens": 20104.0,
-    "mean_token_accuracy": 0.5777778029441833,
-    "epoch": 0.0295,
+    "loss": 2.6835,
+    "grad_norm": 1.6889381408691406,
+    "learning_rate": 1.944e-05,
+    "num_tokens": 39787.0,
+    "mean_token_accuracy": 0.5833333134651184,
+    "epoch": 0.059,
     "step": 59
   },
   {
-    "loss": 2.685,
-    "grad_norm": 1.6868253946304321,
-    "learning_rate": 1.944e-05,
-    "num_tokens": 20195.0,
-    "mean_token_accuracy": 0.5777778029441833,
-    "epoch": 0.03,
+    "loss": 1.0389,
+    "grad_norm": 0.46930453181266785,
+    "learning_rate": 1.9430000000000002e-05,
+    "num_tokens": 40390.0,
+    "mean_token_accuracy": 0.8136439323425293,
+    "epoch": 0.06,
     "step": 60
   },
   {
-    "loss": 2.6703,
-    "grad_norm": 1.6875874996185303,
-    "learning_rate": 1.9430000000000002e-05,
-    "num_tokens": 20286.0,
-    "mean_token_accuracy": 0.5777778029441833,
-    "epoch": 0.0305,
+    "loss": 0.8618,
+    "grad_norm": 0.3517741560935974,
+    "learning_rate": 1.942e-05,
+    "num_tokens": 41414.0,
+    "mean_token_accuracy": 0.8287671208381653,
+    "epoch": 0.061,
     "step": 61
   },
   {
-    "loss": 1.0897,
-    "grad_norm": 0.3931529223918915,
-    "learning_rate": 1.942e-05,
-    "num_tokens": 20798.0,
-    "mean_token_accuracy": 0.7847357988357544,
-    "epoch": 0.031,
+    "loss": 1.0166,
+    "grad_norm": 0.36366671323776245,
+    "learning_rate": 1.9410000000000002e-05,
+    "num_tokens": 42438.0,
+    "mean_token_accuracy": 0.8062622547149658,
+    "epoch": 0.062,
     "step": 62
   },
   {
-    "loss": 1.0308,
-    "grad_norm": 0.4257798492908478,
-    "learning_rate": 1.9410000000000002e-05,
-    "num_tokens": 21310.0,
-    "mean_token_accuracy": 0.7964774966239929,
-    "epoch": 0.0315,
+    "loss": 0.7078,
+    "grad_norm": 0.3396281599998474,
+    "learning_rate": 1.94e-05,
+    "num_tokens": 43462.0,
+    "mean_token_accuracy": 0.854207456111908,
+    "epoch": 0.063,
     "step": 63
   },
   {
-    "loss": 0.752,
-    "grad_norm": 0.3678564429283142,
-    "learning_rate": 1.94e-05,
-    "num_tokens": 21822.0,
-    "mean_token_accuracy": 0.8493150472640991,
-    "epoch": 0.032,
+    "loss": 1.0209,
+    "grad_norm": 0.45759913325309753,
+    "learning_rate": 1.9390000000000002e-05,
+    "num_tokens": 44065.0,
+    "mean_token_accuracy": 0.8053244352340698,
+    "epoch": 0.064,
     "step": 64
   },
   {
-    "loss": 0.995,
-    "grad_norm": 0.414833128452301,
-    "learning_rate": 1.9390000000000002e-05,
-    "num_tokens": 22334.0,
-    "mean_token_accuracy": 0.8121330738067627,
-    "epoch": 0.0325,
+    "loss": 1.2182,
+    "grad_norm": 0.5087379813194275,
+    "learning_rate": 1.938e-05,
+    "num_tokens": 44668.0,
+    "mean_token_accuracy": 0.7720465660095215,
+    "epoch": 0.065,
     "step": 65
   },
   {
-    "loss": 1.0055,
-    "grad_norm": 0.42559435963630676,
-    "learning_rate": 1.938e-05,
-    "num_tokens": 22846.0,
-    "mean_token_accuracy": 0.8003913760185242,
-    "epoch": 0.033,
+    "loss": 1.2071,
+    "grad_norm": 0.47915199398994446,
+    "learning_rate": 1.9370000000000003e-05,
+    "num_tokens": 45271.0,
+    "mean_token_accuracy": 0.7753743529319763,
+    "epoch": 0.066,
     "step": 66
   },
   {
-    "loss": 2.5807,
-    "grad_norm": 1.7541372776031494,
-    "learning_rate": 1.9370000000000003e-05,
-    "num_tokens": 22937.0,
+    "loss": 2.5826,
+    "grad_norm": 1.750019907951355,
+    "learning_rate": 1.936e-05,
+    "num_tokens": 45453.0,
     "mean_token_accuracy": 0.5888888835906982,
-    "epoch": 0.0335,
+    "epoch": 0.067,
     "step": 67
   },
   {
-    "loss": 2.5636,
-    "grad_norm": 1.7794091701507568,
-    "learning_rate": 1.936e-05,
-    "num_tokens": 23028.0,
-    "mean_token_accuracy": 0.5888888835906982,
-    "epoch": 0.034,
+    "loss": 1.2427,
+    "grad_norm": 0.4957088232040405,
+    "learning_rate": 1.9350000000000003e-05,
+    "num_tokens": 46056.0,
+    "mean_token_accuracy": 0.7703827023506165,
+    "epoch": 0.068,
     "step": 68
   },
   {
-    "loss": 2.5482,
-    "grad_norm": 1.7919189929962158,
-    "learning_rate": 1.9350000000000003e-05,
-    "num_tokens": 23119.0,
-    "mean_token_accuracy": 0.5888888835906982,
-    "epoch": 0.0345,
+    "loss": 1.0424,
+    "grad_norm": 0.41490304470062256,
+    "learning_rate": 1.934e-05,
+    "num_tokens": 47080.0,
+    "mean_token_accuracy": 0.7896282076835632,
+    "epoch": 0.069,
     "step": 69
   },
   {
-    "loss": 0.7033,
-    "grad_norm": 0.3789256811141968,
-    "learning_rate": 1.934e-05,
-    "num_tokens": 23631.0,
-    "mean_token_accuracy": 0.8551859259605408,
-    "epoch": 0.035,
+    "loss": 0.9686,
+    "grad_norm": 0.46192672848701477,
+    "learning_rate": 1.9330000000000003e-05,
+    "num_tokens": 47683.0,
+    "mean_token_accuracy": 0.8169717192649841,
+    "epoch": 0.07,
     "step": 70
   },
   {
-    "loss": 0.7623,
-    "grad_norm": 0.41511237621307373,
-    "learning_rate": 1.9330000000000003e-05,
-    "num_tokens": 24143.0,
-    "mean_token_accuracy": 0.8434442281723022,
-    "epoch": 0.0355,
+    "loss": 0.8245,
+    "grad_norm": 0.35540422797203064,
+    "learning_rate": 1.932e-05,
+    "num_tokens": 48707.0,
+    "mean_token_accuracy": 0.8307240605354309,
+    "epoch": 0.071,
     "step": 71
   },
   {
-    "loss": 2.5008,
-    "grad_norm": 1.8457392454147339,
-    "learning_rate": 1.932e-05,
-    "num_tokens": 24234.0,
+    "loss": 2.5112,
+    "grad_norm": 1.8079156875610352,
+    "learning_rate": 1.9310000000000003e-05,
+    "num_tokens": 48889.0,
     "mean_token_accuracy": 0.5888888835906982,
-    "epoch": 0.036,
+    "epoch": 0.072,
     "step": 72
   },
   {
-    "loss": 0.9835,
-    "grad_norm": 0.4251658618450165,
-    "learning_rate": 1.9310000000000003e-05,
-    "num_tokens": 24746.0,
-    "mean_token_accuracy": 0.8062622547149658,
-    "epoch": 0.0365,
+    "loss": 2.4944,
+    "grad_norm": 1.8286060094833374,
+    "learning_rate": 1.93e-05,
+    "num_tokens": 49071.0,
+    "mean_token_accuracy": 0.5888888835906982,
+    "epoch": 0.073,
     "step": 73
   },
   {
-    "loss": 0.6836,
-    "grad_norm": 0.39055028557777405,
-    "learning_rate": 1.93e-05,
-    "num_tokens": 25258.0,
-    "mean_token_accuracy": 0.8532289862632751,
-    "epoch": 0.037,
+    "loss": 2.4756,
+    "grad_norm": 1.8400400876998901,
+    "learning_rate": 1.9290000000000003e-05,
+    "num_tokens": 49253.0,
+    "mean_token_accuracy": 0.5888888835906982,
+    "epoch": 0.074,
     "step": 74
   },
   {
-    "loss": 1.0516,
-    "grad_norm": 0.4297751784324646,
-    "learning_rate": 1.9290000000000003e-05,
-    "num_tokens": 25770.0,
-    "mean_token_accuracy": 0.7984344363212585,
-    "epoch": 0.0375,
+    "loss": 1.2609,
+    "grad_norm": 0.5120524764060974,
+    "learning_rate": 1.9280000000000002e-05,
+    "num_tokens": 49856.0,
+    "mean_token_accuracy": 0.7737104892730713,
+    "epoch": 0.075,
     "step": 75
   },
   {
-    "loss": 0.9707,
-    "grad_norm": 0.408170223236084,
-    "learning_rate": 1.9280000000000002e-05,
-    "num_tokens": 26282.0,
-    "mean_token_accuracy": 0.8062622547149658,
-    "epoch": 0.038,
+    "loss": 2.4372,
+    "grad_norm": 1.8490524291992188,
+    "learning_rate": 1.9270000000000004e-05,
+    "num_tokens": 50038.0,
+    "mean_token_accuracy": 0.6000000238418579,
+    "epoch": 0.076,
     "step": 76
   },
   {
-    "loss": 1.0632,
-    "grad_norm": 0.4372476041316986,
-    "learning_rate": 1.9270000000000004e-05,
-    "num_tokens": 26794.0,
-    "mean_token_accuracy": 0.8023483157157898,
-    "epoch": 0.0385,
+    "loss": 0.87,
+    "grad_norm": 0.35692137479782104,
+    "learning_rate": 1.9260000000000002e-05,
+    "num_tokens": 51062.0,
+    "mean_token_accuracy": 0.8268101811408997,
+    "epoch": 0.077,
     "step": 77
   },
   {
-    "loss": 2.419,
-    "grad_norm": 1.9062981605529785,
-    "learning_rate": 1.9260000000000002e-05,
-    "num_tokens": 26885.0,
-    "mean_token_accuracy": 0.6000000238418579,
-    "epoch": 0.039,
+    "loss": 2.3976,
+    "grad_norm": 1.857652187347412,
+    "learning_rate": 1.925e-05,
+    "num_tokens": 51244.0,
+    "mean_token_accuracy": 0.6111111044883728,
+    "epoch": 0.078,
     "step": 78
   },
   {
-    "loss": 2.4008,
-    "grad_norm": 1.9403553009033203,
-    "learning_rate": 1.925e-05,
-    "num_tokens": 26976.0,
-    "mean_token_accuracy": 0.6000000238418579,
-    "epoch": 0.0395,
+    "loss": 0.8421,
+    "grad_norm": 0.384198397397995,
+    "learning_rate": 1.9240000000000002e-05,
+    "num_tokens": 52268.0,
+    "mean_token_accuracy": 0.8326810002326965,
+    "epoch": 0.079,
     "step": 79
   },
   {
-    "loss": 2.3866,
-    "grad_norm": 1.9395607709884644,
-    "learning_rate": 1.9240000000000002e-05,
-    "num_tokens": 27067.0,
-    "mean_token_accuracy": 0.6000000238418579,
-    "epoch": 0.04,
+    "loss": 0.6936,
+    "grad_norm": 0.3182176947593689,
+    "learning_rate": 1.923e-05,
+    "num_tokens": 53292.0,
+    "mean_token_accuracy": 0.8639921545982361,
+    "epoch": 0.08,
     "step": 80
   },
   {
-    "loss": 2.3668,
-    "grad_norm": 1.948604941368103,
-    "learning_rate": 1.923e-05,
-    "num_tokens": 27158.0,
-    "mean_token_accuracy": 0.6111111044883728,
-    "epoch": 0.0405,
+    "loss": 1.0199,
+    "grad_norm": 0.44241663813591003,
+    "learning_rate": 1.9220000000000002e-05,
+    "num_tokens": 54316.0,
+    "mean_token_accuracy": 0.8082191944122314,
+    "epoch": 0.081,
     "step": 81
   },
   {
-    "loss": 0.7165,
-    "grad_norm": 0.3970690369606018,
-    "learning_rate": 1.9220000000000002e-05,
-    "num_tokens": 27670.0,
-    "mean_token_accuracy": 0.8649706244468689,
-    "epoch": 0.041,
+    "loss": 2.3246,
+    "grad_norm": 1.8165708780288696,
+    "learning_rate": 1.921e-05,
+    "num_tokens": 54498.0,
+    "mean_token_accuracy": 0.6222222447395325,
+    "epoch": 0.082,
     "step": 82
   },
   {
-    "loss": 1.0087,
-    "grad_norm": 0.46349093317985535,
-    "learning_rate": 1.921e-05,
-    "num_tokens": 28182.0,
-    "mean_token_accuracy": 0.8023483157157898,
-    "epoch": 0.0415,
+    "loss": 1.0166,
+    "grad_norm": 0.4384869635105133,
+    "learning_rate": 1.9200000000000003e-05,
+    "num_tokens": 55522.0,
+    "mean_token_accuracy": 0.7994129061698914,
+    "epoch": 0.083,
     "step": 83
   },
   {
-    "loss": 0.7138,
-    "grad_norm": 0.3978181481361389,
-    "learning_rate": 1.9200000000000003e-05,
-    "num_tokens": 28694.0,
-    "mean_token_accuracy": 0.8688845634460449,
-    "epoch": 0.042,
+    "loss": 1.165,
+    "grad_norm": 0.5062429308891296,
+    "learning_rate": 1.919e-05,
+    "num_tokens": 56125.0,
+    "mean_token_accuracy": 0.7870216369628906,
+    "epoch": 0.084,
     "step": 84
   },
   {
-    "loss": 0.6682,
-    "grad_norm": 0.38714009523391724,
-    "learning_rate": 1.919e-05,
-    "num_tokens": 29206.0,
-    "mean_token_accuracy": 0.8630136847496033,
-    "epoch": 0.0425,
+    "loss": 0.8415,
+    "grad_norm": 0.3699897527694702,
+    "learning_rate": 1.918e-05,
+    "num_tokens": 57149.0,
+    "mean_token_accuracy": 0.8277886509895325,
+    "epoch": 0.085,
     "step": 85
   },
   {
-    "loss": 2.2852,
-    "grad_norm": 1.8964459896087646,
-    "learning_rate": 1.918e-05,
-    "num_tokens": 29297.0,
+    "loss": 2.2615,
+    "grad_norm": 1.7989789247512817,
+    "learning_rate": 1.917e-05,
+    "num_tokens": 57331.0,
     "mean_token_accuracy": 0.6333333253860474,
-    "epoch": 0.043,
+    "epoch": 0.086,
     "step": 86
   },
   {
-    "loss": 2.2692,
-    "grad_norm": 1.8906216621398926,
-    "learning_rate": 1.917e-05,
-    "num_tokens": 29388.0,
-    "mean_token_accuracy": 0.644444465637207,
-    "epoch": 0.0435,
+    "loss": 1.1214,
+    "grad_norm": 0.4981077313423157,
+    "learning_rate": 1.916e-05,
+    "num_tokens": 57934.0,
+    "mean_token_accuracy": 0.7903494238853455,
+    "epoch": 0.087,
     "step": 87
   },
   {
-    "loss": 2.253,
-    "grad_norm": 1.8771262168884277,
-    "learning_rate": 1.916e-05,
-    "num_tokens": 29479.0,
-    "mean_token_accuracy": 0.6555555462837219,
-    "epoch": 0.044,
+    "loss": 0.9395,
+    "grad_norm": 0.4391534626483917,
+    "learning_rate": 1.915e-05,
+    "num_tokens": 58958.0,
+    "mean_token_accuracy": 0.8131115436553955,
+    "epoch": 0.088,
     "step": 88
   },
   {
-    "loss": 0.9113,
-    "grad_norm": 0.49527081847190857,
-    "learning_rate": 1.915e-05,
-    "num_tokens": 29991.0,
-    "mean_token_accuracy": 0.8199608325958252,
-    "epoch": 0.0445,
+    "loss": 0.7869,
+    "grad_norm": 0.4100501537322998,
+    "learning_rate": 1.914e-05,
+    "num_tokens": 59982.0,
+    "mean_token_accuracy": 0.8434442281723022,
+    "epoch": 0.089,
     "step": 89
   },
   {
-    "loss": 1.0366,
-    "grad_norm": 0.4962358772754669,
-    "learning_rate": 1.914e-05,
-    "num_tokens": 30503.0,
-    "mean_token_accuracy": 0.7925636172294617,
-    "epoch": 0.045,
+    "loss": 1.1777,
+    "grad_norm": 0.515848696231842,
+    "learning_rate": 1.913e-05,
+    "num_tokens": 60585.0,
+    "mean_token_accuracy": 0.7787021398544312,
+    "epoch": 0.09,
     "step": 90
   },
   {
-    "loss": 2.2018,
-    "grad_norm": 1.8590370416641235,
-    "learning_rate": 1.913e-05,
-    "num_tokens": 30594.0,
-    "mean_token_accuracy": 0.6555555462837219,
-    "epoch": 0.0455,
+    "loss": 1.1895,
+    "grad_norm": 0.5122319459915161,
+    "learning_rate": 1.912e-05,
+    "num_tokens": 61188.0,
+    "mean_token_accuracy": 0.782029926776886,
+    "epoch": 0.091,
     "step": 91
   },
   {
-    "loss": 0.9951,
-    "grad_norm": 0.5745645761489868,
-    "learning_rate": 1.912e-05,
-    "num_tokens": 31106.0,
-    "mean_token_accuracy": 0.7984344363212585,
-    "epoch": 0.046,
+    "loss": 0.8746,
+    "grad_norm": 0.436844140291214,
+    "learning_rate": 1.911e-05,
+    "num_tokens": 61791.0,
+    "mean_token_accuracy": 0.8302828669548035,
+    "epoch": 0.092,
     "step": 92
   },
   {
-    "loss": 0.6545,
-    "grad_norm": 0.4285139739513397,
-    "learning_rate": 1.911e-05,
-    "num_tokens": 31618.0,
-    "mean_token_accuracy": 0.8610567450523376,
-    "epoch": 0.0465,
+    "loss": 1.1634,
+    "grad_norm": 0.5078467130661011,
+    "learning_rate": 1.91e-05,
+    "num_tokens": 62394.0,
+    "mean_token_accuracy": 0.7903494238853455,
+    "epoch": 0.093,
     "step": 93
   },
   {
-    "loss": 2.1565,
-    "grad_norm": 1.8819890022277832,
-    "learning_rate": 1.91e-05,
-    "num_tokens": 31709.0,
-    "mean_token_accuracy": 0.6555555462837219,
-    "epoch": 0.047,
+    "loss": 0.9594,
+    "grad_norm": 0.4935344159603119,
+    "learning_rate": 1.9090000000000002e-05,
+    "num_tokens": 63418.0,
+    "mean_token_accuracy": 0.8121330738067627,
+    "epoch": 0.094,
     "step": 94
   },
   {
-    "loss": 2.1391,
-    "grad_norm": 1.9009383916854858,
-    "learning_rate": 1.9090000000000002e-05,
-    "num_tokens": 31800.0,
-    "mean_token_accuracy": 0.6555555462837219,
-    "epoch": 0.0475,
+    "loss": 1.1431,
+    "grad_norm": 0.5384430289268494,
+    "learning_rate": 1.908e-05,
+    "num_tokens": 64021.0,
+    "mean_token_accuracy": 0.7770382761955261,
+    "epoch": 0.095,
     "step": 95
   },
   {
-    "loss": 0.9592,
-    "grad_norm": 0.5530417561531067,
-    "learning_rate": 1.908e-05,
-    "num_tokens": 32312.0,
-    "mean_token_accuracy": 0.8140900135040283,
-    "epoch": 0.048,
+    "loss": 1.0983,
+    "grad_norm": 0.5433980226516724,
+    "learning_rate": 1.9070000000000002e-05,
+    "num_tokens": 64624.0,
+    "mean_token_accuracy": 0.7986688613891602,
+    "epoch": 0.096,
     "step": 96
   },
   {
-    "loss": 0.639,
-    "grad_norm": 0.4635550081729889,
-    "learning_rate": 1.9070000000000002e-05,
-    "num_tokens": 32824.0,
-    "mean_token_accuracy": 0.8669275641441345,
-    "epoch": 0.0485,
+    "loss": 1.0644,
+    "grad_norm": 0.5404391884803772,
+    "learning_rate": 1.906e-05,
+    "num_tokens": 65227.0,
+    "mean_token_accuracy": 0.7886855006217957,
+    "epoch": 0.097,
     "step": 97
   },
   {
-    "loss": 2.0893,
-    "grad_norm": 1.9755080938339233,
-    "learning_rate": 1.906e-05,
-    "num_tokens": 32915.0,
-    "mean_token_accuracy": 0.6555555462837219,
-    "epoch": 0.049,
+    "loss": 1.1442,
+    "grad_norm": 0.5509842038154602,
+    "learning_rate": 1.9050000000000002e-05,
+    "num_tokens": 65830.0,
+    "mean_token_accuracy": 0.7886855006217957,
+    "epoch": 0.098,
     "step": 98
   },
   {
-    "loss": 2.0698,
-    "grad_norm": 2.017965793609619,
-    "learning_rate": 1.9050000000000002e-05,
-    "num_tokens": 33006.0,
-    "mean_token_accuracy": 0.6666666865348816,
-    "epoch": 0.0495,
+    "loss": 1.131,
+    "grad_norm": 0.5534968972206116,
+    "learning_rate": 1.904e-05,
+    "num_tokens": 66433.0,
+    "mean_token_accuracy": 0.7853577136993408,
+    "epoch": 0.099,
     "step": 99
   },
   {
-    "loss": 2.0535,
-    "grad_norm": 2.0711710453033447,
-    "learning_rate": 1.904e-05,
-    "num_tokens": 33097.0,
-    "mean_token_accuracy": 0.6666666865348816,
-    "epoch": 0.05,
+    "loss": 0.9655,
+    "grad_norm": 0.4929925501346588,
+    "learning_rate": 1.9030000000000002e-05,
+    "num_tokens": 67457.0,
+    "mean_token_accuracy": 0.805283784866333,
+    "epoch": 0.1,
     "step": 100
   },
   {
-    "loss": 2.0313,
-    "grad_norm": 2.117086172103882,
-    "learning_rate": 1.9030000000000002e-05,
-    "num_tokens": 33188.0,
-    "mean_token_accuracy": 0.6666666865348816,
-    "epoch": 0.0505,
+    "loss": 1.1075,
+    "grad_norm": 0.5677370429039001,
+    "learning_rate": 1.902e-05,
+    "num_tokens": 68060.0,
+    "mean_token_accuracy": 0.7870216369628906,
+    "epoch": 0.101,
     "step": 101
   },
   {
-    "loss": 0.6362,
-    "grad_norm": 0.48415306210517883,
-    "learning_rate": 1.902e-05,
-    "num_tokens": 33700.0,
-    "mean_token_accuracy": 0.8708415031433105,
-    "epoch": 0.051,
+    "loss": 0.7954,
+    "grad_norm": 0.43329960107803345,
+    "learning_rate": 1.9010000000000003e-05,
+    "num_tokens": 69084.0,
+    "mean_token_accuracy": 0.8405088186264038,
+    "epoch": 0.102,
     "step": 102
   },
   {
-    "loss": 0.6335,
-    "grad_norm": 0.5150465965270996,
-    "learning_rate": 1.9010000000000003e-05,
-    "num_tokens": 34212.0,
-    "mean_token_accuracy": 0.8571428656578064,
-    "epoch": 0.0515,
+    "loss": 0.9016,
+    "grad_norm": 0.5032463669776917,
+    "learning_rate": 1.9e-05,
+    "num_tokens": 70108.0,
+    "mean_token_accuracy": 0.8199608325958252,
+    "epoch": 0.103,
     "step": 103
   },
   {
-    "loss": 0.9912,
-    "grad_norm": 0.6076453924179077,
-    "learning_rate": 1.9e-05,
-    "num_tokens": 34724.0,
-    "mean_token_accuracy": 0.8082191944122314,
-    "epoch": 0.052,
+    "loss": 0.7721,
+    "grad_norm": 0.40760254859924316,
+    "learning_rate": 1.8990000000000003e-05,
+    "num_tokens": 71132.0,
+    "mean_token_accuracy": 0.839530348777771,
+    "epoch": 0.104,
     "step": 104
   },
   {
-    "loss": 0.9828,
-    "grad_norm": 0.5944868326187134,
-    "learning_rate": 1.8990000000000003e-05,
-    "num_tokens": 35236.0,
-    "mean_token_accuracy": 0.8121330738067627,
-    "epoch": 0.0525,
+    "loss": 0.9044,
+    "grad_norm": 0.45296505093574524,
+    "learning_rate": 1.898e-05,
+    "num_tokens": 72156.0,
+    "mean_token_accuracy": 0.8189823627471924,
+    "epoch": 0.105,
     "step": 105
   },
   {
-    "loss": 0.8844,
-    "grad_norm": 0.5450642704963684,
-    "learning_rate": 1.898e-05,
-    "num_tokens": 35748.0,
-    "mean_token_accuracy": 0.8199608325958252,
-    "epoch": 0.053,
+    "loss": 0.8039,
+    "grad_norm": 0.523140549659729,
+    "learning_rate": 1.8970000000000003e-05,
+    "num_tokens": 72759.0,
+    "mean_token_accuracy": 0.841930091381073,
+    "epoch": 0.106,
     "step": 106
   },
   {
-    "loss": 0.9195,
-    "grad_norm": 0.5619152188301086,
-    "learning_rate": 1.8970000000000003e-05,
-    "num_tokens": 36260.0,
-    "mean_token_accuracy": 0.8140900135040283,
-    "epoch": 0.0535,
+    "loss": 1.0876,
+    "grad_norm": 0.6097339391708374,
+    "learning_rate": 1.896e-05,
+    "num_tokens": 73362.0,
+    "mean_token_accuracy": 0.7936772108078003,
+    "epoch": 0.107,
     "step": 107
   },
   {
-    "loss": 1.9053,
-    "grad_norm": 2.4565858840942383,
-    "learning_rate": 1.896e-05,
-    "num_tokens": 36351.0,
-    "mean_token_accuracy": 0.6888889074325562,
-    "epoch": 0.054,
+    "loss": 1.0691,
+    "grad_norm": 0.6268714666366577,
+    "learning_rate": 1.8950000000000003e-05,
+    "num_tokens": 73965.0,
+    "mean_token_accuracy": 0.7903494238853455,
+    "epoch": 0.108,
     "step": 108
   },
   {
-    "loss": 0.6608,
-    "grad_norm": 0.5228564739227295,
-    "learning_rate": 1.8950000000000003e-05,
-    "num_tokens": 36863.0,
-    "mean_token_accuracy": 0.8727984428405762,
-    "epoch": 0.0545,
+    "loss": 0.8107,
+    "grad_norm": 0.5590832829475403,
+    "learning_rate": 1.894e-05,
+    "num_tokens": 74568.0,
+    "mean_token_accuracy": 0.840266227722168,
+    "epoch": 0.109,
     "step": 109
   },
   {
-    "loss": 0.6786,
-    "grad_norm": 0.5397571325302124,
-    "learning_rate": 1.894e-05,
-    "num_tokens": 37375.0,
-    "mean_token_accuracy": 0.8551859259605408,
-    "epoch": 0.055,
+    "loss": 1.9547,
+    "grad_norm": 2.607954978942871,
+    "learning_rate": 1.893e-05,
+    "num_tokens": 74750.0,
+    "mean_token_accuracy": 0.6555555462837219,
+    "epoch": 0.11,
     "step": 110
   },
   {
-    "loss": 0.6198,
-    "grad_norm": 0.537507176399231,
-    "learning_rate": 1.893e-05,
-    "num_tokens": 37887.0,
-    "mean_token_accuracy": 0.8649706244468689,
-    "epoch": 0.0555,
+    "loss": 1.0032,
+    "grad_norm": 0.6220319271087646,
+    "learning_rate": 1.8920000000000002e-05,
+    "num_tokens": 75353.0,
+    "mean_token_accuracy": 0.8053244352340698,
+    "epoch": 0.111,
     "step": 111
   },
   {
-    "loss": 1.8448,
-    "grad_norm": 2.565553665161133,
-    "learning_rate": 1.8920000000000002e-05,
-    "num_tokens": 37978.0,
-    "mean_token_accuracy": 0.699999988079071,
-    "epoch": 0.056,
+    "loss": 1.0205,
+    "grad_norm": 0.6377025842666626,
+    "learning_rate": 1.891e-05,
+    "num_tokens": 75956.0,
+    "mean_token_accuracy": 0.80033278465271,
+    "epoch": 0.112,
     "step": 112
   },
   {
-    "loss": 0.9505,
-    "grad_norm": 0.5609534978866577,
-    "learning_rate": 1.891e-05,
-    "num_tokens": 38490.0,
-    "mean_token_accuracy": 0.8121330738067627,
-    "epoch": 0.0565,
+    "loss": 1.0413,
+    "grad_norm": 0.6643140912055969,
+    "learning_rate": 1.8900000000000002e-05,
+    "num_tokens": 76559.0,
+    "mean_token_accuracy": 0.7953410744667053,
+    "epoch": 0.113,
     "step": 113
   },
   {
-    "loss": 0.6103,
-    "grad_norm": 0.5393182635307312,
-    "learning_rate": 1.8900000000000002e-05,
-    "num_tokens": 39002.0,
-    "mean_token_accuracy": 0.8688845634460449,
-    "epoch": 0.057,
+    "loss": 1.0232,
+    "grad_norm": 0.6345243453979492,
+    "learning_rate": 1.889e-05,
+    "num_tokens": 77162.0,
+    "mean_token_accuracy": 0.8036605715751648,
+    "epoch": 0.114,
     "step": 114
   },
   {
-    "loss": 1.8089,
-    "grad_norm": 2.6849920749664307,
-    "learning_rate": 1.889e-05,
-    "num_tokens": 39093.0,
-    "mean_token_accuracy": 0.6888889074325562,
-    "epoch": 0.0575,
+    "loss": 1.8587,
+    "grad_norm": 2.7318179607391357,
+    "learning_rate": 1.8880000000000002e-05,
+    "num_tokens": 77344.0,
+    "mean_token_accuracy": 0.6666666865348816,
+    "epoch": 0.115,
     "step": 115
   },
   {
-    "loss": 0.961,
-    "grad_norm": 0.5978713035583496,
-    "learning_rate": 1.8880000000000002e-05,
-    "num_tokens": 39605.0,
-    "mean_token_accuracy": 0.8101761341094971,
-    "epoch": 0.058,
+    "loss": 0.7584,
+    "grad_norm": 0.5891063809394836,
+    "learning_rate": 1.887e-05,
+    "num_tokens": 77947.0,
+    "mean_token_accuracy": 0.8502495884895325,
+    "epoch": 0.116,
     "step": 116
   },
   {
-    "loss": 1.777,
-    "grad_norm": 2.7187552452087402,
-    "learning_rate": 1.887e-05,
-    "num_tokens": 39696.0,
-    "mean_token_accuracy": 0.6888889074325562,
-    "epoch": 0.0585,
+    "loss": 0.7495,
+    "grad_norm": 0.62372887134552,
+    "learning_rate": 1.886e-05,
+    "num_tokens": 78550.0,
+    "mean_token_accuracy": 0.8469218015670776,
+    "epoch": 0.117,
     "step": 117
   },
   {
-    "loss": 1.7591,
-    "grad_norm": 2.7737131118774414,
-    "learning_rate": 1.886e-05,
-    "num_tokens": 39787.0,
-    "mean_token_accuracy": 0.6888889074325562,
-    "epoch": 0.059,
+    "loss": 0.7327,
+    "grad_norm": 0.4757370948791504,
+    "learning_rate": 1.885e-05,
+    "num_tokens": 79574.0,
+    "mean_token_accuracy": 0.8473581075668335,
+    "epoch": 0.118,
     "step": 118
   },
   {
-    "loss": 1.74,
-    "grad_norm": 2.7507472038269043,
-    "learning_rate": 1.885e-05,
-    "num_tokens": 39878.0,
-    "mean_token_accuracy": 0.6888889074325562,
-    "epoch": 0.0595,
+    "loss": 1.0126,
+    "grad_norm": 0.6939040422439575,
+    "learning_rate": 1.884e-05,
+    "num_tokens": 80177.0,
+    "mean_token_accuracy": 0.8069883584976196,
+    "epoch": 0.119,
     "step": 119
   },
   {
-    "loss": 0.6336,
-    "grad_norm": 0.6201249957084656,
-    "learning_rate": 1.884e-05,
-    "num_tokens": 40390.0,
-    "mean_token_accuracy": 0.878669261932373,
-    "epoch": 0.06,
+    "loss": 1.7444,
+    "grad_norm": 2.786555290222168,
+    "learning_rate": 1.883e-05,
+    "num_tokens": 80359.0,
+    "mean_token_accuracy": 0.699999988079071,
+    "epoch": 0.12,
     "step": 120
   },
   {
-    "loss": 0.5845,
-    "grad_norm": 0.5287116169929504,
-    "learning_rate": 1.883e-05,
-    "num_tokens": 40902.0,
-    "mean_token_accuracy": 0.8747553825378418,
-    "epoch": 0.0605,
+    "loss": 0.7121,
+    "grad_norm": 0.5502288341522217,
+    "learning_rate": 1.882e-05,
+    "num_tokens": 81383.0,
+    "mean_token_accuracy": 0.8512719869613647,
+    "epoch": 0.121,
     "step": 121
   },
   {
-    "loss": 0.8665,
-    "grad_norm": 0.6071702241897583,
-    "learning_rate": 1.882e-05,
-    "num_tokens": 41414.0,
-    "mean_token_accuracy": 0.8219178318977356,
-    "epoch": 0.061,
+    "loss": 0.6055,
+    "grad_norm": 0.6514042019844055,
+    "learning_rate": 1.881e-05,
+    "num_tokens": 82407.0,
+    "mean_token_accuracy": 0.8688845634460449,
+    "epoch": 0.122,
     "step": 122
   },
   {
-    "loss": 0.8748,
-    "grad_norm": 0.6387258172035217,
-    "learning_rate": 1.881e-05,
-    "num_tokens": 41926.0,
-    "mean_token_accuracy": 0.8258317112922668,
-    "epoch": 0.0615,
+    "loss": 0.7074,
+    "grad_norm": 0.6278131008148193,
+    "learning_rate": 1.88e-05,
+    "num_tokens": 83010.0,
+    "mean_token_accuracy": 0.8552412390708923,
+    "epoch": 0.123,
     "step": 123
   },
   {
-    "loss": 0.875,
-    "grad_norm": 0.5957177877426147,
-    "learning_rate": 1.88e-05,
-    "num_tokens": 42438.0,
-    "mean_token_accuracy": 0.8258317112922668,
-    "epoch": 0.062,
+    "loss": 0.9056,
+    "grad_norm": 0.7105093002319336,
+    "learning_rate": 1.879e-05,
+    "num_tokens": 83613.0,
+    "mean_token_accuracy": 0.8103161454200745,
+    "epoch": 0.124,
     "step": 124
   },
   {
-    "loss": 0.5784,
-    "grad_norm": 0.5134051442146301,
-    "learning_rate": 1.879e-05,
-    "num_tokens": 42950.0,
-    "mean_token_accuracy": 0.8747553825378418,
-    "epoch": 0.0625,
+    "loss": 0.7111,
+    "grad_norm": 0.5671331286430359,
+    "learning_rate": 1.878e-05,
+    "num_tokens": 84637.0,
+    "mean_token_accuracy": 0.8454011678695679,
+    "epoch": 0.125,
     "step": 125
   },
   {
-    "loss": 0.5775,
-    "grad_norm": 0.5122160911560059,
-    "learning_rate": 1.878e-05,
-    "num_tokens": 43462.0,
-    "mean_token_accuracy": 0.8747553825378418,
-    "epoch": 0.063,
+    "loss": 1.6124,
+    "grad_norm": 2.8393170833587646,
+    "learning_rate": 1.877e-05,
+    "num_tokens": 84819.0,
+    "mean_token_accuracy": 0.699999988079071,
+    "epoch": 0.126,
     "step": 126
   },
   {
-    "loss": 1.6118,
-    "grad_norm": 2.893503189086914,
-    "learning_rate": 1.877e-05,
-    "num_tokens": 43553.0,
-    "mean_token_accuracy": 0.6888889074325562,
-    "epoch": 0.0635,
+    "loss": 0.6913,
+    "grad_norm": 0.6492026448249817,
+    "learning_rate": 1.876e-05,
+    "num_tokens": 85422.0,
+    "mean_token_accuracy": 0.8519134521484375,
+    "epoch": 0.127,
     "step": 127
   },
   {
-    "loss": 0.6218,
-    "grad_norm": 0.5278106927871704,
-    "learning_rate": 1.876e-05,
-    "num_tokens": 44065.0,
-    "mean_token_accuracy": 0.8630136847496033,
-    "epoch": 0.064,
+    "loss": 0.9506,
+    "grad_norm": 0.8479906916618347,
+    "learning_rate": 1.8750000000000002e-05,
+    "num_tokens": 86025.0,
+    "mean_token_accuracy": 0.7986688613891602,
+    "epoch": 0.128,
     "step": 128
   },
   {
-    "loss": 1.5808,
-    "grad_norm": 2.9607582092285156,
-    "learning_rate": 1.8750000000000002e-05,
-    "num_tokens": 44156.0,
-    "mean_token_accuracy": 0.6888889074325562,
-    "epoch": 0.0645,
+    "loss": 0.7724,
+    "grad_norm": 0.6733057498931885,
+    "learning_rate": 1.8740000000000004e-05,
+    "num_tokens": 87049.0,
+    "mean_token_accuracy": 0.8365949392318726,
+    "epoch": 0.129,
     "step": 129
   },
   {
-    "loss": 0.802,
-    "grad_norm": 0.6248002052307129,
-    "learning_rate": 1.8740000000000004e-05,
-    "num_tokens": 44668.0,
-    "mean_token_accuracy": 0.8336594700813293,
-    "epoch": 0.065,
+    "loss": 0.7141,
+    "grad_norm": 0.7287142872810364,
+    "learning_rate": 1.8730000000000002e-05,
+    "num_tokens": 87652.0,
+    "mean_token_accuracy": 0.8535773754119873,
+    "epoch": 0.13,
     "step": 130
   },
   {
-    "loss": 0.8202,
-    "grad_norm": 0.6419914364814758,
-    "learning_rate": 1.8730000000000002e-05,
-    "num_tokens": 45180.0,
-    "mean_token_accuracy": 0.8238747715950012,
-    "epoch": 0.0655,
+    "loss": 1.4981,
+    "grad_norm": 3.1733977794647217,
+    "learning_rate": 1.8720000000000004e-05,
+    "num_tokens": 87834.0,
+    "mean_token_accuracy": 0.7222222089767456,
+    "epoch": 0.131,
     "step": 131
   },
   {
-    "loss": 1.534,
-    "grad_norm": 3.0163865089416504,
-    "learning_rate": 1.8720000000000004e-05,
-    "num_tokens": 45271.0,
-    "mean_token_accuracy": 0.7111111283302307,
-    "epoch": 0.066,
+    "loss": 0.7416,
+    "grad_norm": 0.7018607258796692,
+    "learning_rate": 1.8710000000000002e-05,
+    "num_tokens": 88858.0,
+    "mean_token_accuracy": 0.8385518789291382,
+    "epoch": 0.132,
     "step": 132
   },
   {
-    "loss": 1.5157,
-    "grad_norm": 3.01271390914917,
-    "learning_rate": 1.8710000000000002e-05,
-    "num_tokens": 45362.0,
-    "mean_token_accuracy": 0.7111111283302307,
-    "epoch": 0.0665,
+    "loss": 0.6695,
+    "grad_norm": 0.569635272026062,
+    "learning_rate": 1.8700000000000004e-05,
+    "num_tokens": 89882.0,
+    "mean_token_accuracy": 0.8581213355064392,
+    "epoch": 0.133,
     "step": 133
   },
   {
-    "loss": 1.497,
-    "grad_norm": 2.959350824356079,
-    "learning_rate": 1.8700000000000004e-05,
-    "num_tokens": 45453.0,
-    "mean_token_accuracy": 0.7111111283302307,
-    "epoch": 0.067,
+    "loss": 0.8634,
+    "grad_norm": 0.92866051197052,
+    "learning_rate": 1.8690000000000002e-05,
+    "num_tokens": 90485.0,
+    "mean_token_accuracy": 0.8169717192649841,
+    "epoch": 0.134,
     "step": 134
   },
   {
-    "loss": 1.4734,
-    "grad_norm": 2.8837082386016846,
-    "learning_rate": 1.8690000000000002e-05,
-    "num_tokens": 45544.0,
-    "mean_token_accuracy": 0.699999988079071,
-    "epoch": 0.0675,
+    "loss": 0.6584,
+    "grad_norm": 0.6502605080604553,
+    "learning_rate": 1.8680000000000004e-05,
+    "num_tokens": 91509.0,
+    "mean_token_accuracy": 0.8630136847496033,
+    "epoch": 0.135,
     "step": 135
   },
   {
-    "loss": 0.8266,
-    "grad_norm": 0.6843762993812561,
-    "learning_rate": 1.8680000000000004e-05,
-    "num_tokens": 46056.0,
-    "mean_token_accuracy": 0.8297455906867981,
-    "epoch": 0.068,
+    "loss": 0.6392,
+    "grad_norm": 0.826318085193634,
+    "learning_rate": 1.8670000000000003e-05,
+    "num_tokens": 92112.0,
+    "mean_token_accuracy": 0.8652245998382568,
+    "epoch": 0.136,
     "step": 136
   },
   {
-    "loss": 0.861,
-    "grad_norm": 0.7351704835891724,
-    "learning_rate": 1.8670000000000003e-05,
-    "num_tokens": 46568.0,
-    "mean_token_accuracy": 0.816046953201294,
-    "epoch": 0.0685,
+    "loss": 0.4802,
+    "grad_norm": 0.5766599774360657,
+    "learning_rate": 1.866e-05,
+    "num_tokens": 93136.0,
+    "mean_token_accuracy": 0.8953033089637756,
+    "epoch": 0.137,
     "step": 137
   },
   {
-    "loss": 0.845,
-    "grad_norm": 0.7598766088485718,
-    "learning_rate": 1.866e-05,
-    "num_tokens": 47080.0,
-    "mean_token_accuracy": 0.816046953201294,
-    "epoch": 0.069,
+    "loss": 0.6821,
+    "grad_norm": 0.8077890276908875,
+    "learning_rate": 1.8650000000000003e-05,
+    "num_tokens": 93739.0,
+    "mean_token_accuracy": 0.860232949256897,
+    "epoch": 0.138,
     "step": 138
   },
   {
-    "loss": 1.3777,
-    "grad_norm": 3.036391496658325,
-    "learning_rate": 1.8650000000000003e-05,
-    "num_tokens": 47171.0,
-    "mean_token_accuracy": 0.7222222089767456,
-    "epoch": 0.0695,
+    "loss": 0.8336,
+    "grad_norm": 0.9565444588661194,
+    "learning_rate": 1.864e-05,
+    "num_tokens": 94342.0,
+    "mean_token_accuracy": 0.820299506187439,
+    "epoch": 0.139,
     "step": 139
   },
   {
-    "loss": 0.5412,
-    "grad_norm": 0.6829193830490112,
-    "learning_rate": 1.864e-05,
-    "num_tokens": 47683.0,
-    "mean_token_accuracy": 0.8767123222351074,
-    "epoch": 0.07,
+    "loss": 0.6176,
+    "grad_norm": 0.6447359919548035,
+    "learning_rate": 1.8630000000000003e-05,
+    "num_tokens": 95366.0,
+    "mean_token_accuracy": 0.8630136847496033,
+    "epoch": 0.14,
     "step": 140
   },
   {
-    "loss": 0.7666,
-    "grad_norm": 0.7895976901054382,
-    "learning_rate": 1.8630000000000003e-05,
-    "num_tokens": 48195.0,
-    "mean_token_accuracy": 0.839530348777771,
-    "epoch": 0.0705,
+    "loss": 0.7278,
+    "grad_norm": 0.7473644614219666,
+    "learning_rate": 1.862e-05,
+    "num_tokens": 96390.0,
+    "mean_token_accuracy": 0.8414872884750366,
+    "epoch": 0.141,
     "step": 141
   },
   {
-    "loss": 0.5381,
-    "grad_norm": 0.790127694606781,
-    "learning_rate": 1.862e-05,
-    "num_tokens": 48707.0,
-    "mean_token_accuracy": 0.8825831413269043,
-    "epoch": 0.071,
+    "loss": 0.582,
+    "grad_norm": 0.8362826704978943,
+    "learning_rate": 1.8610000000000003e-05,
+    "num_tokens": 96993.0,
+    "mean_token_accuracy": 0.8785357475280762,
+    "epoch": 0.142,
     "step": 142
   },
   {
-    "loss": 1.2811,
-    "grad_norm": 3.4602015018463135,
-    "learning_rate": 1.8610000000000003e-05,
-    "num_tokens": 48798.0,
-    "mean_token_accuracy": 0.7444444298744202,
-    "epoch": 0.0715,
+    "loss": 1.202,
+    "grad_norm": 4.45956563949585,
+    "learning_rate": 1.86e-05,
+    "num_tokens": 97175.0,
+    "mean_token_accuracy": 0.7333333492279053,
+    "epoch": 0.143,
     "step": 143
   },
   {
-    "loss": 1.26,
-    "grad_norm": 3.52811336517334,
-    "learning_rate": 1.86e-05,
-    "num_tokens": 48889.0,
-    "mean_token_accuracy": 0.7444444298744202,
-    "epoch": 0.072,
+    "loss": 0.7112,
+    "grad_norm": 0.8263697624206543,
+    "learning_rate": 1.859e-05,
+    "num_tokens": 98199.0,
+    "mean_token_accuracy": 0.8463796377182007,
+    "epoch": 0.144,
     "step": 144
   },
   {
-    "loss": 1.2314,
-    "grad_norm": 3.6009700298309326,
-    "learning_rate": 1.859e-05,
-    "num_tokens": 48980.0,
-    "mean_token_accuracy": 0.7444444298744202,
-    "epoch": 0.0725,
+    "loss": 0.6413,
+    "grad_norm": 1.0524468421936035,
+    "learning_rate": 1.858e-05,
+    "num_tokens": 98802.0,
+    "mean_token_accuracy": 0.860232949256897,
+    "epoch": 0.145,
     "step": 145
   },
   {
-    "loss": 1.2002,
-    "grad_norm": 3.6722474098205566,
-    "learning_rate": 1.858e-05,
-    "num_tokens": 49071.0,
-    "mean_token_accuracy": 0.7555555701255798,
-    "epoch": 0.073,
+    "loss": 0.7817,
+    "grad_norm": 1.0738270282745361,
+    "learning_rate": 1.857e-05,
+    "num_tokens": 99405.0,
+    "mean_token_accuracy": 0.8269550800323486,
+    "epoch": 0.146,
     "step": 146
   },
   {
-    "loss": 1.1693,
-    "grad_norm": 3.4836974143981934,
-    "learning_rate": 1.857e-05,
-    "num_tokens": 49162.0,
-    "mean_token_accuracy": 0.7666666507720947,
-    "epoch": 0.0735,
+    "loss": 0.7235,
+    "grad_norm": 1.2545086145401,
+    "learning_rate": 1.8560000000000002e-05,
+    "num_tokens": 100429.0,
+    "mean_token_accuracy": 0.8414872884750366,
+    "epoch": 0.147,
     "step": 147
   },
   {
-    "loss": 1.1338,
-    "grad_norm": 3.369781017303467,
-    "learning_rate": 1.8560000000000002e-05,
-    "num_tokens": 49253.0,
-    "mean_token_accuracy": 0.7777777910232544,
-    "epoch": 0.074,
+    "loss": 0.5966,
+    "grad_norm": 0.8518689274787903,
+    "learning_rate": 1.855e-05,
+    "num_tokens": 101453.0,
+    "mean_token_accuracy": 0.8708415031433105,
+    "epoch": 0.148,
     "step": 148
   },
   {
-    "loss": 1.0973,
-    "grad_norm": 3.3117072582244873,
-    "learning_rate": 1.855e-05,
-    "num_tokens": 49344.0,
-    "mean_token_accuracy": 0.7777777910232544,
-    "epoch": 0.0745,
+    "loss": 0.6405,
+    "grad_norm": 0.8886847496032715,
+    "learning_rate": 1.8540000000000002e-05,
+    "num_tokens": 102477.0,
+    "mean_token_accuracy": 0.859099805355072,
+    "epoch": 0.149,
     "step": 149
   },
   {
-    "loss": 0.8315,
-    "grad_norm": 0.9976187944412231,
-    "learning_rate": 1.8540000000000002e-05,
-    "num_tokens": 49856.0,
-    "mean_token_accuracy": 0.8219178318977356,
-    "epoch": 0.075,
+    "loss": 0.5327,
+    "grad_norm": 0.8927612900733948,
+    "learning_rate": 1.853e-05,
+    "num_tokens": 103501.0,
+    "mean_token_accuracy": 0.8864970803260803,
+    "epoch": 0.15,
     "step": 150
   },
   {
-    "loss": 1.0272,
-    "grad_norm": 3.300879955291748,
-    "learning_rate": 1.853e-05,
-    "num_tokens": 49947.0,
-    "mean_token_accuracy": 0.7777777910232544,
-    "epoch": 0.0755,
+    "loss": 0.6202,
+    "grad_norm": 0.9321349263191223,
+    "learning_rate": 1.8520000000000002e-05,
+    "num_tokens": 104525.0,
+    "mean_token_accuracy": 0.8630136847496033,
+    "epoch": 0.151,
     "step": 151
   },
   {
-    "loss": 0.9891,
-    "grad_norm": 3.3772897720336914,
-    "learning_rate": 1.8520000000000002e-05,
-    "num_tokens": 50038.0,
-    "mean_token_accuracy": 0.7777777910232544,
-    "epoch": 0.076,
+    "loss": 0.6459,
+    "grad_norm": 1.0996044874191284,
+    "learning_rate": 1.851e-05,
+    "num_tokens": 105549.0,
+    "mean_token_accuracy": 0.8600782752037048,
+    "epoch": 0.152,
     "step": 152
   },
   {
-    "loss": 0.5464,
-    "grad_norm": 0.9478758573532104,
-    "learning_rate": 1.851e-05,
-    "num_tokens": 50550.0,
-    "mean_token_accuracy": 0.8825831413269043,
-    "epoch": 0.0765,
+    "loss": 0.6313,
+    "grad_norm": 0.942244291305542,
+    "learning_rate": 1.8500000000000002e-05,
+    "num_tokens": 106573.0,
+    "mean_token_accuracy": 0.8639921545982361,
+    "epoch": 0.153,
     "step": 153
   },
   {
-    "loss": 0.8039,
-    "grad_norm": 1.1654984951019287,
-    "learning_rate": 1.8500000000000002e-05,
-    "num_tokens": 51062.0,
-    "mean_token_accuracy": 0.8277886509895325,
-    "epoch": 0.077,
+    "loss": 0.5416,
+    "grad_norm": 0.8150050640106201,
+    "learning_rate": 1.849e-05,
+    "num_tokens": 107597.0,
+    "mean_token_accuracy": 0.8757338523864746,
+    "epoch": 0.154,
     "step": 154
   },
   {
-    "loss": 0.8961,
-    "grad_norm": 4.251962184906006,
-    "learning_rate": 1.849e-05,
-    "num_tokens": 51153.0,
-    "mean_token_accuracy": 0.800000011920929,
-    "epoch": 0.0775,
+    "loss": 0.9382,
+    "grad_norm": 5.082424163818359,
+    "learning_rate": 1.8480000000000003e-05,
+    "num_tokens": 107779.0,
+    "mean_token_accuracy": 0.7777777910232544,
+    "epoch": 0.155,
     "step": 155
   },
   {
-    "loss": 0.8656,
-    "grad_norm": 4.492918491363525,
-    "learning_rate": 1.8480000000000003e-05,
-    "num_tokens": 51244.0,
-    "mean_token_accuracy": 0.8222222328186035,
-    "epoch": 0.078,
+    "loss": 0.6434,
+    "grad_norm": 1.4283632040023804,
+    "learning_rate": 1.847e-05,
+    "num_tokens": 108382.0,
+    "mean_token_accuracy": 0.8519134521484375,
+    "epoch": 0.156,
     "step": 156
   },
   {
-    "loss": 0.493,
-    "grad_norm": 0.8727006912231445,
-    "learning_rate": 1.847e-05,
-    "num_tokens": 51756.0,
-    "mean_token_accuracy": 0.8806262016296387,
-    "epoch": 0.0785,
+    "loss": 0.6736,
+    "grad_norm": 1.4088659286499023,
+    "learning_rate": 1.8460000000000003e-05,
+    "num_tokens": 108985.0,
+    "mean_token_accuracy": 0.8552412390708923,
+    "epoch": 0.157,
     "step": 157
   },
   {
-    "loss": 0.7707,
-    "grad_norm": 1.041538119316101,
-    "learning_rate": 1.8460000000000003e-05,
-    "num_tokens": 52268.0,
-    "mean_token_accuracy": 0.8277886509895325,
-    "epoch": 0.079,
+    "loss": 0.872,
+    "grad_norm": 4.658277988433838,
+    "learning_rate": 1.845e-05,
+    "num_tokens": 109167.0,
+    "mean_token_accuracy": 0.800000011920929,
+    "epoch": 0.158,
     "step": 158
   },
   {
-    "loss": 0.5714,
-    "grad_norm": 0.9487267136573792,
-    "learning_rate": 1.845e-05,
-    "num_tokens": 52780.0,
-    "mean_token_accuracy": 0.8747553825378418,
-    "epoch": 0.0795,
+    "loss": 0.6061,
+    "grad_norm": 1.0742665529251099,
+    "learning_rate": 1.8440000000000003e-05,
+    "num_tokens": 110191.0,
+    "mean_token_accuracy": 0.8620352149009705,
+    "epoch": 0.159,
     "step": 159
   },
   {
-    "loss": 0.4725,
-    "grad_norm": 0.798832356929779,
-    "learning_rate": 1.8440000000000003e-05,
-    "num_tokens": 53292.0,
-    "mean_token_accuracy": 0.8923678994178772,
-    "epoch": 0.08,
+    "loss": 0.639,
+    "grad_norm": 1.259716272354126,
+    "learning_rate": 1.843e-05,
+    "num_tokens": 110794.0,
+    "mean_token_accuracy": 0.8535773754119873,
+    "epoch": 0.16,
     "step": 160
   },
   {
-    "loss": 0.7814,
-    "grad_norm": 0.9986205101013184,
-    "learning_rate": 1.843e-05,
-    "num_tokens": 53804.0,
-    "mean_token_accuracy": 0.8258317112922668,
-    "epoch": 0.0805,
+    "loss": 0.6228,
+    "grad_norm": 1.1735901832580566,
+    "learning_rate": 1.8420000000000003e-05,
+    "num_tokens": 111397.0,
+    "mean_token_accuracy": 0.8635607361793518,
+    "epoch": 0.161,
     "step": 161
   },
   {
-    "loss": 0.7441,
-    "grad_norm": 0.9336599707603455,
-    "learning_rate": 1.8420000000000003e-05,
-    "num_tokens": 54316.0,
-    "mean_token_accuracy": 0.8434442281723022,
-    "epoch": 0.081,
+    "loss": 0.4876,
+    "grad_norm": 0.9384316802024841,
+    "learning_rate": 1.841e-05,
+    "num_tokens": 112421.0,
+    "mean_token_accuracy": 0.8904109597206116,
+    "epoch": 0.162,
     "step": 162
   },
   {
-    "loss": 0.7031,
-    "grad_norm": 5.16276741027832,
-    "learning_rate": 1.841e-05,
-    "num_tokens": 54407.0,
-    "mean_token_accuracy": 0.8666666746139526,
-    "epoch": 0.0815,
+    "loss": 0.5318,
+    "grad_norm": 0.9066665172576904,
+    "learning_rate": 1.8400000000000003e-05,
+    "num_tokens": 113445.0,
+    "mean_token_accuracy": 0.8904109597206116,
+    "epoch": 0.163,
     "step": 163
   },
   {
-    "loss": 0.679,
-    "grad_norm": 4.1701273918151855,
-    "learning_rate": 1.8400000000000003e-05,
-    "num_tokens": 54498.0,
-    "mean_token_accuracy": 0.8777777552604675,
-    "epoch": 0.082,
+    "loss": 0.5869,
+    "grad_norm": 1.2560738325119019,
+    "learning_rate": 1.8390000000000002e-05,
+    "num_tokens": 114469.0,
+    "mean_token_accuracy": 0.8688845634460449,
+    "epoch": 0.164,
     "step": 164
   },
   {
-    "loss": 0.7353,
-    "grad_norm": 1.0674586296081543,
-    "learning_rate": 1.8390000000000002e-05,
-    "num_tokens": 55010.0,
-    "mean_token_accuracy": 0.8336594700813293,
-    "epoch": 0.0825,
+    "loss": 0.5481,
+    "grad_norm": 1.3613413572311401,
+    "learning_rate": 1.8380000000000004e-05,
+    "num_tokens": 115493.0,
+    "mean_token_accuracy": 0.8767123222351074,
+    "epoch": 0.165,
     "step": 165
   },
   {
-    "loss": 0.7491,
-    "grad_norm": 1.21304452419281,
-    "learning_rate": 1.8380000000000004e-05,
-    "num_tokens": 55522.0,
-    "mean_token_accuracy": 0.8277886509895325,
-    "epoch": 0.083,
+    "loss": 0.5731,
+    "grad_norm": 1.4810606241226196,
+    "learning_rate": 1.8370000000000002e-05,
+    "num_tokens": 116096.0,
+    "mean_token_accuracy": 0.8752079606056213,
+    "epoch": 0.166,
     "step": 166
   },
   {
-    "loss": 0.6185,
-    "grad_norm": 4.724250316619873,
-    "learning_rate": 1.8370000000000002e-05,
-    "num_tokens": 55613.0,
-    "mean_token_accuracy": 0.8666666746139526,
-    "epoch": 0.0835,
+    "loss": 0.3885,
+    "grad_norm": 0.9610773324966431,
+    "learning_rate": 1.8360000000000004e-05,
+    "num_tokens": 117120.0,
+    "mean_token_accuracy": 0.9109588861465454,
+    "epoch": 0.167,
     "step": 167
   },
   {
-    "loss": 0.6687,
-    "grad_norm": 1.0483168363571167,
-    "learning_rate": 1.8360000000000004e-05,
-    "num_tokens": 56125.0,
-    "mean_token_accuracy": 0.8571428656578064,
-    "epoch": 0.084,
+    "loss": 0.6274,
+    "grad_norm": 4.352345943450928,
+    "learning_rate": 1.8350000000000002e-05,
+    "num_tokens": 117302.0,
+    "mean_token_accuracy": 0.8666666746139526,
+    "epoch": 0.168,
     "step": 168
   },
   {
-    "loss": 0.5248,
-    "grad_norm": 1.1386994123458862,
-    "learning_rate": 1.8350000000000002e-05,
-    "num_tokens": 56637.0,
-    "mean_token_accuracy": 0.8825831413269043,
-    "epoch": 0.0845,
+    "loss": 0.4967,
+    "grad_norm": 1.632398009300232,
+    "learning_rate": 1.834e-05,
+    "num_tokens": 117905.0,
+    "mean_token_accuracy": 0.8768718838691711,
+    "epoch": 0.169,
     "step": 169
   },
   {
-    "loss": 0.692,
-    "grad_norm": 1.000663161277771,
-    "learning_rate": 1.834e-05,
-    "num_tokens": 57149.0,
-    "mean_token_accuracy": 0.8473581075668335,
-    "epoch": 0.085,
+    "loss": 0.4694,
+    "grad_norm": 1.3380522727966309,
+    "learning_rate": 1.8330000000000002e-05,
+    "num_tokens": 118929.0,
+    "mean_token_accuracy": 0.8943248391151428,
+    "epoch": 0.17,
     "step": 170
   },
   {
-    "loss": 0.549,
-    "grad_norm": 5.925390720367432,
-    "learning_rate": 1.8330000000000002e-05,
-    "num_tokens": 57240.0,
-    "mean_token_accuracy": 0.8777777552604675,
-    "epoch": 0.0855,
+    "loss": 0.4756,
+    "grad_norm": 1.4122637510299683,
+    "learning_rate": 1.832e-05,
+    "num_tokens": 119953.0,
+    "mean_token_accuracy": 0.8913894295692444,
+    "epoch": 0.171,
     "step": 171
   },
   {
-    "loss": 0.5316,
-    "grad_norm": 7.124028205871582,
-    "learning_rate": 1.832e-05,
-    "num_tokens": 57331.0,
-    "mean_token_accuracy": 0.8777777552604675,
-    "epoch": 0.086,
+    "loss": 0.5351,
+    "grad_norm": 4.495899677276611,
+    "learning_rate": 1.8310000000000003e-05,
+    "num_tokens": 120135.0,
+    "mean_token_accuracy": 0.8833333253860474,
+    "epoch": 0.172,
     "step": 172
   },
   {
-    "loss": 0.6214,
-    "grad_norm": 1.0966285467147827,
-    "learning_rate": 1.8310000000000003e-05,
-    "num_tokens": 57843.0,
-    "mean_token_accuracy": 0.8571428656578064,
-    "epoch": 0.0865,
+    "loss": 0.5104,
+    "grad_norm": 4.362597465515137,
+    "learning_rate": 1.83e-05,
+    "num_tokens": 120317.0,
+    "mean_token_accuracy": 0.8888888955116272,
+    "epoch": 0.173,
     "step": 173
   },
   {
-    "loss": 0.482,
-    "grad_norm": 4.625036239624023,
-    "learning_rate": 1.83e-05,
-    "num_tokens": 57934.0,
-    "mean_token_accuracy": 0.8999999761581421,
-    "epoch": 0.087,
+    "loss": 0.3742,
+    "grad_norm": 1.0410066843032837,
+    "learning_rate": 1.8290000000000003e-05,
+    "num_tokens": 121341.0,
+    "mean_token_accuracy": 0.9109588861465454,
+    "epoch": 0.174,
     "step": 174
   },
   {
-    "loss": 0.6731,
-    "grad_norm": 1.3060588836669922,
-    "learning_rate": 1.8290000000000003e-05,
-    "num_tokens": 58446.0,
-    "mean_token_accuracy": 0.8532289862632751,
-    "epoch": 0.0875,
+    "loss": 0.3873,
+    "grad_norm": 1.1270015239715576,
+    "learning_rate": 1.828e-05,
+    "num_tokens": 122365.0,
+    "mean_token_accuracy": 0.9060665369033813,
+    "epoch": 0.175,
     "step": 175
   },
   {
-    "loss": 0.5768,
-    "grad_norm": 1.7968002557754517,
-    "learning_rate": 1.828e-05,
-    "num_tokens": 58958.0,
-    "mean_token_accuracy": 0.8532289862632751,
-    "epoch": 0.088,
+    "loss": 0.4169,
+    "grad_norm": 1.3939638137817383,
+    "learning_rate": 1.827e-05,
+    "num_tokens": 122968.0,
+    "mean_token_accuracy": 0.9034941792488098,
+    "epoch": 0.176,
     "step": 176
   },
   {
-    "loss": 0.6029,
-    "grad_norm": 1.7848604917526245,
-    "learning_rate": 1.827e-05,
-    "num_tokens": 59470.0,
-    "mean_token_accuracy": 0.8688845634460449,
-    "epoch": 0.0885,
+    "loss": 0.3195,
+    "grad_norm": 1.4632936716079712,
+    "learning_rate": 1.826e-05,
+    "num_tokens": 123571.0,
+    "mean_token_accuracy": 0.9284525513648987,
+    "epoch": 0.177,
     "step": 177
   },
   {
-    "loss": 0.3979,
-    "grad_norm": 1.9516690969467163,
-    "learning_rate": 1.826e-05,
-    "num_tokens": 59982.0,
-    "mean_token_accuracy": 0.9119373559951782,
-    "epoch": 0.089,
+    "loss": 0.4051,
+    "grad_norm": 4.38023042678833,
+    "learning_rate": 1.825e-05,
+    "num_tokens": 123753.0,
+    "mean_token_accuracy": 0.9333333373069763,
+    "epoch": 0.178,
     "step": 178
   },
   {
-    "loss": 0.391,
-    "grad_norm": 3.8316330909729004,
-    "learning_rate": 1.825e-05,
-    "num_tokens": 60073.0,
-    "mean_token_accuracy": 0.9333333373069763,
-    "epoch": 0.0895,
+    "loss": 0.3713,
+    "grad_norm": 1.5698707103729248,
+    "learning_rate": 1.824e-05,
+    "num_tokens": 124356.0,
+    "mean_token_accuracy": 0.9134775400161743,
+    "epoch": 0.179,
     "step": 179
   },
   {
-    "loss": 0.6449,
-    "grad_norm": 1.5616425275802612,
-    "learning_rate": 1.824e-05,
-    "num_tokens": 60585.0,
-    "mean_token_accuracy": 0.8532289862632751,
-    "epoch": 0.09,
+    "loss": 0.3905,
+    "grad_norm": 1.4007678031921387,
+    "learning_rate": 1.823e-05,
+    "num_tokens": 125380.0,
+    "mean_token_accuracy": 0.9060665369033813,
+    "epoch": 0.18,
     "step": 180
   },
   {
-    "loss": 0.6533,
-    "grad_norm": 1.280671238899231,
-    "learning_rate": 1.823e-05,
-    "num_tokens": 61097.0,
-    "mean_token_accuracy": 0.8571428656578064,
-    "epoch": 0.0905,
-    "step": 181
-  },
-  {
-    "loss": 0.3584,
-    "grad_norm": 6.280538082122803,
+    "loss": 0.417,
+    "grad_norm": 1.6752204895019531,
     "learning_rate": 1.8220000000000002e-05,
-    "num_tokens": 61188.0,
-    "mean_token_accuracy": 0.9444444179534912,
-    "epoch": 0.091,
-    "step": 182
+    "num_tokens": 125983.0,
+    "mean_token_accuracy": 0.9084858298301697,
+    "epoch": 0.181,
+    "step": 181
   },
   {
-    "loss": 0.3733,
-    "grad_norm": 1.0696591138839722,
+    "loss": 0.2957,
+    "grad_norm": 2.0979738235473633,
     "learning_rate": 1.821e-05,
-    "num_tokens": 61700.0,
-    "mean_token_accuracy": 0.9099804162979126,
-    "epoch": 0.0915,
-    "step": 183
+    "num_tokens": 126586.0,
+    "mean_token_accuracy": 0.9334442615509033,
+    "epoch": 0.182,
+    "step": 182
   },
   {
-    "loss": 0.3357,
-    "grad_norm": 3.6380887031555176,
+    "loss": 0.339,
+    "grad_norm": 5.0233154296875,
     "learning_rate": 1.8200000000000002e-05,
-    "num_tokens": 61791.0,
-    "mean_token_accuracy": 0.9444444179534912,
-    "epoch": 0.092,
-    "step": 184
+    "num_tokens": 126768.0,
+    "mean_token_accuracy": 0.9666666388511658,
+    "epoch": 0.183,
+    "step": 183
   },
   {
-    "loss": 0.3244,
-    "grad_norm": 3.0167179107666016,
+    "loss": 0.3281,
+    "grad_norm": 4.591806888580322,
     "learning_rate": 1.819e-05,
-    "num_tokens": 61882.0,
-    "mean_token_accuracy": 0.9555555582046509,
-    "epoch": 0.0925,
-    "step": 185
+    "num_tokens": 126950.0,
+    "mean_token_accuracy": 0.9666666388511658,
+    "epoch": 0.184,
+    "step": 184
   },
   {
-    "loss": 0.5994,
-    "grad_norm": 1.6260021924972534,
+    "loss": 0.377,
+    "grad_norm": 1.4888513088226318,
     "learning_rate": 1.8180000000000002e-05,
-    "num_tokens": 62394.0,
-    "mean_token_accuracy": 0.8708415031433105,
-    "epoch": 0.093,
-    "step": 186
+    "num_tokens": 127974.0,
+    "mean_token_accuracy": 0.908023476600647,
+    "epoch": 0.185,
+    "step": 185
   },
   {
-    "loss": 0.6215,
-    "grad_norm": 1.607763409614563,
+    "loss": 0.3416,
+    "grad_norm": 1.5393342971801758,
     "learning_rate": 1.817e-05,
-    "num_tokens": 62906.0,
-    "mean_token_accuracy": 0.8571428656578064,
-    "epoch": 0.0935,
-    "step": 187
+    "num_tokens": 128998.0,
+    "mean_token_accuracy": 0.9207436442375183,
+    "epoch": 0.186,
+    "step": 186
   },
   {
-    "loss": 0.5443,
-    "grad_norm": 1.351562261581421,
+    "loss": 0.35,
+    "grad_norm": 1.4663900136947632,
     "learning_rate": 1.8160000000000002e-05,
-    "num_tokens": 63418.0,
-    "mean_token_accuracy": 0.8708415031433105,
-    "epoch": 0.094,
-    "step": 188
+    "num_tokens": 129601.0,
+    "mean_token_accuracy": 0.9317803382873535,
+    "epoch": 0.187,
+    "step": 187
   },
   {
-    "loss": 0.2865,
-    "grad_norm": 2.277933120727539,
+    "loss": 0.3328,
+    "grad_norm": 1.522277593612671,
     "learning_rate": 1.815e-05,
-    "num_tokens": 63509.0,
-    "mean_token_accuracy": 0.9555555582046509,
-    "epoch": 0.0945,
-    "step": 189
+    "num_tokens": 130204.0,
+    "mean_token_accuracy": 0.9317803382873535,
+    "epoch": 0.188,
+    "step": 188
   },
   {
-    "loss": 0.5709,
-    "grad_norm": 1.3398513793945312,
+    "loss": 0.2824,
+    "grad_norm": 2.468599319458008,
     "learning_rate": 1.8140000000000003e-05,
-    "num_tokens": 64021.0,
-    "mean_token_accuracy": 0.8669275641441345,
-    "epoch": 0.095,
-    "step": 190
+    "num_tokens": 130386.0,
+    "mean_token_accuracy": 0.9666666388511658,
+    "epoch": 0.189,
+    "step": 189
   },
   {
-    "loss": 0.2716,
-    "grad_norm": 3.923830986022949,
+    "loss": 0.2709,
+    "grad_norm": 2.1798818111419678,
     "learning_rate": 1.813e-05,
-    "num_tokens": 64112.0,
+    "num_tokens": 130568.0,
     "mean_token_accuracy": 0.9666666388511658,
-    "epoch": 0.0955,
-    "step": 191
+    "epoch": 0.19,
+    "step": 190
   },
   {
-    "loss": 0.509,
-    "grad_norm": 1.4502966403961182,
+    "loss": 0.3626,
+    "grad_norm": 1.752602219581604,
     "learning_rate": 1.8120000000000003e-05,
-    "num_tokens": 64624.0,
-    "mean_token_accuracy": 0.8806262016296387,
-    "epoch": 0.096,
-    "step": 192
+    "num_tokens": 131592.0,
+    "mean_token_accuracy": 0.9197651743888855,
+    "epoch": 0.191,
+    "step": 191
   },
   {
-    "loss": 0.4854,
-    "grad_norm": 1.4078965187072754,
+    "loss": 0.241,
+    "grad_norm": 0.9363252520561218,
     "learning_rate": 1.811e-05,
-    "num_tokens": 65136.0,
-    "mean_token_accuracy": 0.8864970803260803,
-    "epoch": 0.0965,
-    "step": 193
+    "num_tokens": 132195.0,
+    "mean_token_accuracy": 0.9484192728996277,
+    "epoch": 0.192,
+    "step": 192
   },
   {
-    "loss": 0.2501,
-    "grad_norm": 3.077928304672241,
+    "loss": 0.2818,
+    "grad_norm": 1.2946171760559082,
     "learning_rate": 1.8100000000000003e-05,
-    "num_tokens": 65227.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.097,
-    "step": 194
+    "num_tokens": 133219.0,
+    "mean_token_accuracy": 0.9344422817230225,
+    "epoch": 0.193,
+    "step": 193
   },
   {
-    "loss": 0.5453,
-    "grad_norm": 1.7737340927124023,
+    "loss": 0.2998,
+    "grad_norm": 1.081048846244812,
     "learning_rate": 1.809e-05,
-    "num_tokens": 65739.0,
-    "mean_token_accuracy": 0.8767123222351074,
-    "epoch": 0.0975,
-    "step": 195
+    "num_tokens": 134243.0,
+    "mean_token_accuracy": 0.9334638118743896,
+    "epoch": 0.194,
+    "step": 194
   },
   {
-    "loss": 0.239,
-    "grad_norm": 2.0369770526885986,
+    "loss": 0.2823,
+    "grad_norm": 0.9526715278625488,
     "learning_rate": 1.8080000000000003e-05,
-    "num_tokens": 65830.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.098,
-    "step": 196
+    "num_tokens": 135267.0,
+    "mean_token_accuracy": 0.9285714030265808,
+    "epoch": 0.195,
+    "step": 195
   },
   {
-    "loss": 0.2344,
-    "grad_norm": 1.9151840209960938,
+    "loss": 0.2427,
+    "grad_norm": 3.766998052597046,
     "learning_rate": 1.807e-05,
-    "num_tokens": 65921.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.0985,
-    "step": 197
+    "num_tokens": 135449.0,
+    "mean_token_accuracy": 0.9666666388511658,
+    "epoch": 0.196,
+    "step": 196
   },
   {
-    "loss": 0.5325,
-    "grad_norm": 1.6656997203826904,
+    "loss": 0.3572,
+    "grad_norm": 1.496860146522522,
     "learning_rate": 1.8060000000000003e-05,
-    "num_tokens": 66433.0,
-    "mean_token_accuracy": 0.8747553825378418,
-    "epoch": 0.099,
-    "step": 198
+    "num_tokens": 136052.0,
+    "mean_token_accuracy": 0.921796977519989,
+    "epoch": 0.197,
+    "step": 197
   },
   {
-    "loss": 0.4971,
-    "grad_norm": 1.9251680374145508,
+    "loss": 0.2906,
+    "grad_norm": 1.5144256353378296,
     "learning_rate": 1.805e-05,
-    "num_tokens": 66945.0,
-    "mean_token_accuracy": 0.878669261932373,
-    "epoch": 0.0995,
-    "step": 199
+    "num_tokens": 137076.0,
+    "mean_token_accuracy": 0.9344422817230225,
+    "epoch": 0.198,
+    "step": 198
   },
   {
-    "loss": 0.52,
-    "grad_norm": 1.8106904029846191,
+    "loss": 0.2936,
+    "grad_norm": 1.2776437997817993,
     "learning_rate": 1.8040000000000003e-05,
-    "num_tokens": 67457.0,
-    "mean_token_accuracy": 0.8825831413269043,
-    "epoch": 0.1,
-    "step": 200
+    "num_tokens": 138100.0,
+    "mean_token_accuracy": 0.9344422817230225,
+    "epoch": 0.199,
+    "step": 199
   },
   {
-    "loss": 0.2154,
-    "grad_norm": 2.2629575729370117,
+    "loss": 0.2886,
+    "grad_norm": 1.6185836791992188,
     "learning_rate": 1.8030000000000002e-05,
-    "num_tokens": 67548.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.1005,
-    "step": 201
+    "num_tokens": 138703.0,
+    "mean_token_accuracy": 0.9317803382873535,
+    "epoch": 0.2,
+    "step": 200
   },
   {
-    "loss": 0.4612,
-    "grad_norm": 1.7021019458770752,
+    "loss": 0.341,
+    "grad_norm": 1.9566179513931274,
     "learning_rate": 1.802e-05,
-    "num_tokens": 68060.0,
-    "mean_token_accuracy": 0.8962817788124084,
-    "epoch": 0.101,
-    "step": 202
+    "num_tokens": 139306.0,
+    "mean_token_accuracy": 0.9267886877059937,
+    "epoch": 0.201,
+    "step": 201
   },
   {
-    "loss": 0.4315,
-    "grad_norm": 2.6399946212768555,
+    "loss": 0.3243,
+    "grad_norm": 1.490872859954834,
     "learning_rate": 1.8010000000000002e-05,
-    "num_tokens": 68572.0,
-    "mean_token_accuracy": 0.9060665369033813,
-    "epoch": 0.1015,
-    "step": 203
+    "num_tokens": 140330.0,
+    "mean_token_accuracy": 0.9285714030265808,
+    "epoch": 0.202,
+    "step": 202
   },
   {
-    "loss": 0.4603,
-    "grad_norm": 1.909094214439392,
+    "loss": 0.2863,
+    "grad_norm": 1.5277602672576904,
     "learning_rate": 1.8e-05,
-    "num_tokens": 69084.0,
-    "mean_token_accuracy": 0.8943248391151428,
-    "epoch": 0.102,
-    "step": 204
+    "num_tokens": 141354.0,
+    "mean_token_accuracy": 0.9344422817230225,
+    "epoch": 0.203,
+    "step": 203
   },
   {
-    "loss": 0.4483,
-    "grad_norm": 1.7435243129730225,
+    "loss": 0.2535,
+    "grad_norm": 5.625178337097168,
     "learning_rate": 1.7990000000000002e-05,
-    "num_tokens": 69596.0,
-    "mean_token_accuracy": 0.8845401406288147,
-    "epoch": 0.1025,
-    "step": 205
+    "num_tokens": 141957.0,
+    "mean_token_accuracy": 0.941763699054718,
+    "epoch": 0.204,
+    "step": 204
   },
   {
-    "loss": 0.4438,
-    "grad_norm": 2.1652462482452393,
+    "loss": 0.215,
+    "grad_norm": 1.0774091482162476,
     "learning_rate": 1.798e-05,
-    "num_tokens": 70108.0,
-    "mean_token_accuracy": 0.8943248391151428,
-    "epoch": 0.103,
-    "step": 206
+    "num_tokens": 142560.0,
+    "mean_token_accuracy": 0.9584026336669922,
+    "epoch": 0.205,
+    "step": 205
   },
   {
-    "loss": 0.4678,
-    "grad_norm": 2.338404417037964,
+    "loss": 0.2797,
+    "grad_norm": 1.5909628868103027,
     "learning_rate": 1.7970000000000002e-05,
-    "num_tokens": 70620.0,
-    "mean_token_accuracy": 0.8962817788124084,
-    "epoch": 0.1035,
-    "step": 207
+    "num_tokens": 143163.0,
+    "mean_token_accuracy": 0.941763699054718,
+    "epoch": 0.206,
+    "step": 206
   },
   {
-    "loss": 0.3195,
-    "grad_norm": 1.3209658861160278,
+    "loss": 0.285,
+    "grad_norm": 1.3718655109405518,
     "learning_rate": 1.796e-05,
-    "num_tokens": 71132.0,
-    "mean_token_accuracy": 0.927592933177948,
-    "epoch": 0.104,
-    "step": 208
+    "num_tokens": 144187.0,
+    "mean_token_accuracy": 0.9334638118743896,
+    "epoch": 0.207,
+    "step": 207
   },
   {
-    "loss": 0.4409,
-    "grad_norm": 1.709653377532959,
+    "loss": 0.2174,
+    "grad_norm": 3.416680335998535,
     "learning_rate": 1.795e-05,
-    "num_tokens": 71644.0,
-    "mean_token_accuracy": 0.8982387185096741,
-    "epoch": 0.1045,
-    "step": 209
+    "num_tokens": 144369.0,
+    "mean_token_accuracy": 0.9666666388511658,
+    "epoch": 0.208,
+    "step": 208
   },
   {
-    "loss": 0.4037,
-    "grad_norm": 2.7179744243621826,
+    "loss": 0.2612,
+    "grad_norm": 0.9197150468826294,
     "learning_rate": 1.794e-05,
-    "num_tokens": 72156.0,
-    "mean_token_accuracy": 0.9060665369033813,
-    "epoch": 0.105,
-    "step": 210
+    "num_tokens": 145393.0,
+    "mean_token_accuracy": 0.9432485103607178,
+    "epoch": 0.209,
+    "step": 209
   },
   {
-    "loss": 0.2739,
-    "grad_norm": 1.0299943685531616,
+    "loss": 0.2775,
+    "grad_norm": 1.2657712697982788,
     "learning_rate": 1.793e-05,
-    "num_tokens": 72668.0,
-    "mean_token_accuracy": 0.9432485103607178,
-    "epoch": 0.1055,
-    "step": 211
+    "num_tokens": 145996.0,
+    "mean_token_accuracy": 0.9384359121322632,
+    "epoch": 0.21,
+    "step": 210
   },
   {
-    "loss": 0.2022,
-    "grad_norm": 2.607898473739624,
+    "loss": 0.2143,
+    "grad_norm": 1.0708510875701904,
     "learning_rate": 1.792e-05,
-    "num_tokens": 72759.0,
-    "mean_token_accuracy": 0.9666666388511658,
-    "epoch": 0.106,
-    "step": 212
+    "num_tokens": 146599.0,
+    "mean_token_accuracy": 0.9500831961631775,
+    "epoch": 0.211,
+    "step": 211
   },
   {
-    "loss": 0.2042,
-    "grad_norm": 2.916175127029419,
+    "loss": 0.2424,
+    "grad_norm": 1.6526345014572144,
     "learning_rate": 1.791e-05,
-    "num_tokens": 72850.0,
-    "mean_token_accuracy": 0.9666666388511658,
-    "epoch": 0.1065,
-    "step": 213
+    "num_tokens": 147202.0,
+    "mean_token_accuracy": 0.9434276223182678,
+    "epoch": 0.212,
+    "step": 212
   },
   {
-    "loss": 0.3787,
-    "grad_norm": 2.026442527770996,
+    "loss": 0.2205,
+    "grad_norm": 1.5705641508102417,
     "learning_rate": 1.79e-05,
-    "num_tokens": 73362.0,
-    "mean_token_accuracy": 0.9197651743888855,
-    "epoch": 0.107,
-    "step": 214
+    "num_tokens": 148226.0,
+    "mean_token_accuracy": 0.9481409192085266,
+    "epoch": 0.213,
+    "step": 213
   },
   {
-    "loss": 0.3879,
-    "grad_norm": 1.7650607824325562,
+    "loss": 0.1932,
+    "grad_norm": 1.7598477602005005,
     "learning_rate": 1.789e-05,
-    "num_tokens": 73874.0,
-    "mean_token_accuracy": 0.908023476600647,
-    "epoch": 0.1075,
-    "step": 215
+    "num_tokens": 148408.0,
+    "mean_token_accuracy": 0.9777777791023254,
+    "epoch": 0.214,
+    "step": 214
   },
   {
-    "loss": 0.1951,
-    "grad_norm": 3.8692498207092285,
+    "loss": 0.2544,
+    "grad_norm": 1.5029298067092896,
     "learning_rate": 1.788e-05,
-    "num_tokens": 73965.0,
-    "mean_token_accuracy": 0.9666666388511658,
-    "epoch": 0.108,
-    "step": 216
+    "num_tokens": 149011.0,
+    "mean_token_accuracy": 0.9467554092407227,
+    "epoch": 0.215,
+    "step": 215
   },
   {
-    "loss": 0.1904,
-    "grad_norm": 3.0922181606292725,
+    "loss": 0.212,
+    "grad_norm": 1.3078054189682007,
     "learning_rate": 1.787e-05,
-    "num_tokens": 74056.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.1085,
-    "step": 217
+    "num_tokens": 149614.0,
+    "mean_token_accuracy": 0.9584026336669922,
+    "epoch": 0.216,
+    "step": 216
   },
   {
-    "loss": 0.301,
-    "grad_norm": 1.9583574533462524,
+    "loss": 0.2047,
+    "grad_norm": 1.5083431005477905,
     "learning_rate": 1.7860000000000002e-05,
-    "num_tokens": 74568.0,
-    "mean_token_accuracy": 0.9295498728752136,
-    "epoch": 0.109,
-    "step": 218
+    "num_tokens": 150217.0,
+    "mean_token_accuracy": 0.9517470598220825,
+    "epoch": 0.217,
+    "step": 217
   },
   {
-    "loss": 0.1827,
-    "grad_norm": 1.9792364835739136,
+    "loss": 0.1822,
+    "grad_norm": 2.5195505619049072,
     "learning_rate": 1.785e-05,
-    "num_tokens": 74659.0,
+    "num_tokens": 150399.0,
     "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.1095,
-    "step": 219
+    "epoch": 0.218,
+    "step": 218
   },
   {
-    "loss": 0.1794,
-    "grad_norm": 1.3933207988739014,
+    "loss": 0.2084,
+    "grad_norm": 1.026092529296875,
     "learning_rate": 1.7840000000000002e-05,
-    "num_tokens": 74750.0,
+    "num_tokens": 151423.0,
+    "mean_token_accuracy": 0.9520547986030579,
+    "epoch": 0.219,
+    "step": 219
+  },
+  {
+    "loss": 0.1761,
+    "grad_norm": 1.5038201808929443,
+    "learning_rate": 1.783e-05,
+    "num_tokens": 151605.0,
     "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.11,
+    "epoch": 0.22,
     "step": 220
   },
   {
-    "loss": 0.3381,
-    "grad_norm": 1.6843299865722656,
-    "learning_rate": 1.783e-05,
-    "num_tokens": 75262.0,
-    "mean_token_accuracy": 0.9236790537834167,
-    "epoch": 0.1105,
+    "loss": 0.221,
+    "grad_norm": 1.1938914060592651,
+    "learning_rate": 1.7820000000000002e-05,
+    "num_tokens": 152629.0,
+    "mean_token_accuracy": 0.9520547986030579,
+    "epoch": 0.221,
     "step": 221
   },
   {
-    "loss": 0.1732,
-    "grad_norm": 1.4762918949127197,
-    "learning_rate": 1.7820000000000002e-05,
-    "num_tokens": 75353.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.111,
+    "loss": 0.1888,
+    "grad_norm": 0.9352293610572815,
+    "learning_rate": 1.781e-05,
+    "num_tokens": 153232.0,
+    "mean_token_accuracy": 0.960066556930542,
+    "epoch": 0.222,
     "step": 222
   },
   {
-    "loss": 0.1689,
-    "grad_norm": 1.1075265407562256,
-    "learning_rate": 1.781e-05,
-    "num_tokens": 75444.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.1115,
+    "loss": 0.2145,
+    "grad_norm": 1.26731538772583,
+    "learning_rate": 1.7800000000000002e-05,
+    "num_tokens": 153835.0,
+    "mean_token_accuracy": 0.960066556930542,
+    "epoch": 0.223,
     "step": 223
   },
   {
-    "loss": 0.3562,
-    "grad_norm": 2.2154247760772705,
-    "learning_rate": 1.7800000000000002e-05,
-    "num_tokens": 75956.0,
-    "mean_token_accuracy": 0.9138942956924438,
-    "epoch": 0.112,
+    "loss": 0.1964,
+    "grad_norm": 0.8970909118652344,
+    "learning_rate": 1.779e-05,
+    "num_tokens": 154438.0,
+    "mean_token_accuracy": 0.9584026336669922,
+    "epoch": 0.224,
     "step": 224
   },
   {
-    "loss": 0.1629,
-    "grad_norm": 1.3579362630844116,
-    "learning_rate": 1.779e-05,
-    "num_tokens": 76047.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.1125,
+    "loss": 0.1925,
+    "grad_norm": 0.7554095983505249,
+    "learning_rate": 1.7780000000000003e-05,
+    "num_tokens": 155041.0,
+    "mean_token_accuracy": 0.9467554092407227,
+    "epoch": 0.225,
     "step": 225
   },
   {
-    "loss": 0.3199,
-    "grad_norm": 1.9855793714523315,
-    "learning_rate": 1.7780000000000003e-05,
-    "num_tokens": 76559.0,
-    "mean_token_accuracy": 0.931506872177124,
-    "epoch": 0.113,
+    "loss": 0.2031,
+    "grad_norm": 0.8807339072227478,
+    "learning_rate": 1.777e-05,
+    "num_tokens": 156065.0,
+    "mean_token_accuracy": 0.9481409192085266,
+    "epoch": 0.226,
     "step": 226
   },
   {
-    "loss": 0.3381,
-    "grad_norm": 1.787819266319275,
-    "learning_rate": 1.777e-05,
-    "num_tokens": 77071.0,
-    "mean_token_accuracy": 0.9197651743888855,
-    "epoch": 0.1135,
+    "loss": 0.169,
+    "grad_norm": 2.9795708656311035,
+    "learning_rate": 1.7760000000000003e-05,
+    "num_tokens": 156247.0,
+    "mean_token_accuracy": 0.9666666388511658,
+    "epoch": 0.227,
     "step": 227
   },
   {
-    "loss": 0.1525,
-    "grad_norm": 1.0635879039764404,
-    "learning_rate": 1.7760000000000003e-05,
-    "num_tokens": 77162.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.114,
+    "loss": 0.3398,
+    "grad_norm": 3.4801158905029297,
+    "learning_rate": 1.775e-05,
+    "num_tokens": 157271.0,
+    "mean_token_accuracy": 0.9295498728752136,
+    "epoch": 0.228,
     "step": 228
   },
   {
-    "loss": 0.1496,
-    "grad_norm": 1.0544939041137695,
-    "learning_rate": 1.775e-05,
-    "num_tokens": 77253.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.1145,
+    "loss": 0.17,
+    "grad_norm": 1.4093260765075684,
+    "learning_rate": 1.7740000000000003e-05,
+    "num_tokens": 157874.0,
+    "mean_token_accuracy": 0.9650582075119019,
+    "epoch": 0.229,
     "step": 229
   },
   {
-    "loss": 0.1459,
-    "grad_norm": 1.147072672843933,
-    "learning_rate": 1.7740000000000003e-05,
-    "num_tokens": 77344.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.115,
+    "loss": 0.1809,
+    "grad_norm": 1.2199844121932983,
+    "learning_rate": 1.773e-05,
+    "num_tokens": 158477.0,
+    "mean_token_accuracy": 0.961730420589447,
+    "epoch": 0.23,
     "step": 230
   },
   {
-    "loss": 0.1426,
-    "grad_norm": 1.0801589488983154,
-    "learning_rate": 1.773e-05,
-    "num_tokens": 77435.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.1155,
+    "loss": 0.2213,
+    "grad_norm": 1.1079366207122803,
+    "learning_rate": 1.7720000000000003e-05,
+    "num_tokens": 159501.0,
+    "mean_token_accuracy": 0.9481409192085266,
+    "epoch": 0.231,
     "step": 231
   },
   {
-    "loss": 0.2557,
-    "grad_norm": 1.2963556051254272,
-    "learning_rate": 1.7720000000000003e-05,
-    "num_tokens": 77947.0,
-    "mean_token_accuracy": 0.9393346309661865,
-    "epoch": 0.116,
+    "loss": 0.1846,
+    "grad_norm": 1.3526744842529297,
+    "learning_rate": 1.771e-05,
+    "num_tokens": 160104.0,
+    "mean_token_accuracy": 0.9667221307754517,
+    "epoch": 0.232,
     "step": 232
   },
   {
-    "loss": 0.1332,
-    "grad_norm": 1.3799799680709839,
-    "learning_rate": 1.771e-05,
-    "num_tokens": 78038.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1165,
+    "loss": 0.1756,
+    "grad_norm": 1.2986876964569092,
+    "learning_rate": 1.77e-05,
+    "num_tokens": 160707.0,
+    "mean_token_accuracy": 0.9633943438529968,
+    "epoch": 0.233,
     "step": 233
   },
   {
-    "loss": 0.2481,
-    "grad_norm": 1.1608214378356934,
-    "learning_rate": 1.77e-05,
-    "num_tokens": 78550.0,
-    "mean_token_accuracy": 0.9452054500579834,
-    "epoch": 0.117,
+    "loss": 0.1842,
+    "grad_norm": 0.9565788507461548,
+    "learning_rate": 1.7690000000000002e-05,
+    "num_tokens": 161310.0,
+    "mean_token_accuracy": 0.9567387700080872,
+    "epoch": 0.234,
     "step": 234
   },
   {
-    "loss": 0.2642,
-    "grad_norm": 1.2985522747039795,
-    "learning_rate": 1.7690000000000002e-05,
-    "num_tokens": 79062.0,
-    "mean_token_accuracy": 0.9373776912689209,
-    "epoch": 0.1175,
+    "loss": 0.1696,
+    "grad_norm": 0.8098346590995789,
+    "learning_rate": 1.768e-05,
+    "num_tokens": 161913.0,
+    "mean_token_accuracy": 0.9584026336669922,
+    "epoch": 0.235,
     "step": 235
   },
   {
-    "loss": 0.3124,
-    "grad_norm": 2.222142219543457,
-    "learning_rate": 1.768e-05,
-    "num_tokens": 79574.0,
-    "mean_token_accuracy": 0.9256359934806824,
-    "epoch": 0.118,
+    "loss": 0.2198,
+    "grad_norm": 1.4016491174697876,
+    "learning_rate": 1.7670000000000002e-05,
+    "num_tokens": 162516.0,
+    "mean_token_accuracy": 0.9567387700080872,
+    "epoch": 0.236,
     "step": 236
   },
   {
-    "loss": 0.3102,
-    "grad_norm": 2.533982753753662,
-    "learning_rate": 1.7670000000000002e-05,
-    "num_tokens": 80086.0,
-    "mean_token_accuracy": 0.9334638118743896,
-    "epoch": 0.1185,
+    "loss": 0.1451,
+    "grad_norm": 1.9594753980636597,
+    "learning_rate": 1.766e-05,
+    "num_tokens": 162698.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.237,
     "step": 237
   },
   {
-    "loss": 0.1218,
-    "grad_norm": 1.7190382480621338,
-    "learning_rate": 1.766e-05,
-    "num_tokens": 80177.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.119,
+    "loss": 0.1681,
+    "grad_norm": 1.2831525802612305,
+    "learning_rate": 1.7650000000000002e-05,
+    "num_tokens": 163722.0,
+    "mean_token_accuracy": 0.965753436088562,
+    "epoch": 0.238,
     "step": 238
   },
   {
-    "loss": 0.1169,
-    "grad_norm": 1.3357374668121338,
-    "learning_rate": 1.7650000000000002e-05,
-    "num_tokens": 80268.0,
+    "loss": 0.1387,
+    "grad_norm": 1.2211278676986694,
+    "learning_rate": 1.764e-05,
+    "num_tokens": 163904.0,
     "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1195,
+    "epoch": 0.239,
     "step": 239
   },
   {
-    "loss": 0.1147,
-    "grad_norm": 1.298270344734192,
-    "learning_rate": 1.764e-05,
-    "num_tokens": 80359.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.12,
+    "loss": 0.1599,
+    "grad_norm": 1.4370752573013306,
+    "learning_rate": 1.763e-05,
+    "num_tokens": 164507.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.24,
     "step": 240
   },
   {
-    "loss": 0.3127,
-    "grad_norm": 2.2547061443328857,
-    "learning_rate": 1.763e-05,
-    "num_tokens": 80871.0,
-    "mean_token_accuracy": 0.9256359934806824,
-    "epoch": 0.1205,
+    "loss": 0.1335,
+    "grad_norm": 1.3081690073013306,
+    "learning_rate": 1.762e-05,
+    "num_tokens": 164689.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.241,
     "step": 241
   },
   {
-    "loss": 0.2312,
-    "grad_norm": 1.7744327783584595,
-    "learning_rate": 1.762e-05,
-    "num_tokens": 81383.0,
-    "mean_token_accuracy": 0.9412915706634521,
-    "epoch": 0.121,
+    "loss": 0.1646,
+    "grad_norm": 1.0794700384140015,
+    "learning_rate": 1.761e-05,
+    "num_tokens": 165292.0,
+    "mean_token_accuracy": 0.9650582075119019,
+    "epoch": 0.242,
     "step": 242
   },
   {
-    "loss": 0.3975,
-    "grad_norm": 4.527610778808594,
-    "learning_rate": 1.761e-05,
-    "num_tokens": 81895.0,
-    "mean_token_accuracy": 0.9138942956924438,
-    "epoch": 0.1215,
+    "loss": 0.1283,
+    "grad_norm": 1.1635990142822266,
+    "learning_rate": 1.76e-05,
+    "num_tokens": 165474.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.243,
     "step": 243
   },
   {
-    "loss": 0.3551,
-    "grad_norm": 3.1718592643737793,
-    "learning_rate": 1.76e-05,
-    "num_tokens": 82407.0,
-    "mean_token_accuracy": 0.927592933177948,
-    "epoch": 0.122,
+    "loss": 0.1394,
+    "grad_norm": 1.4341994524002075,
+    "learning_rate": 1.759e-05,
+    "num_tokens": 166077.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.244,
     "step": 244
   },
   {
-    "loss": 0.1045,
-    "grad_norm": 1.574190378189087,
-    "learning_rate": 1.759e-05,
-    "num_tokens": 82498.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1225,
+    "loss": 0.1287,
+    "grad_norm": 1.2540855407714844,
+    "learning_rate": 1.758e-05,
+    "num_tokens": 166680.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.245,
     "step": 245
   },
   {
-    "loss": 0.2236,
-    "grad_norm": 1.4468473196029663,
-    "learning_rate": 1.758e-05,
-    "num_tokens": 83010.0,
-    "mean_token_accuracy": 0.951076328754425,
-    "epoch": 0.123,
+    "loss": 0.1243,
+    "grad_norm": 1.1882375478744507,
+    "learning_rate": 1.757e-05,
+    "num_tokens": 167283.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.246,
     "step": 246
   },
   {
-    "loss": 0.0999,
-    "grad_norm": 1.4842942953109741,
-    "learning_rate": 1.757e-05,
-    "num_tokens": 83101.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1235,
+    "loss": 0.1605,
+    "grad_norm": 0.9329596161842346,
+    "learning_rate": 1.756e-05,
+    "num_tokens": 167886.0,
+    "mean_token_accuracy": 0.9584026336669922,
+    "epoch": 0.247,
     "step": 247
   },
   {
-    "loss": 0.2509,
-    "grad_norm": 1.7860370874404907,
-    "learning_rate": 1.756e-05,
-    "num_tokens": 83613.0,
-    "mean_token_accuracy": 0.9412915706634521,
-    "epoch": 0.124,
+    "loss": 0.1186,
+    "grad_norm": 1.8514982461929321,
+    "learning_rate": 1.755e-05,
+    "num_tokens": 168068.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.248,
     "step": 248
   },
   {
-    "loss": 0.2611,
-    "grad_norm": 1.6783521175384521,
-    "learning_rate": 1.755e-05,
-    "num_tokens": 84125.0,
-    "mean_token_accuracy": 0.9373776912689209,
-    "epoch": 0.1245,
+    "loss": 0.142,
+    "grad_norm": 0.9530863761901855,
+    "learning_rate": 1.754e-05,
+    "num_tokens": 169092.0,
+    "mean_token_accuracy": 0.9628180265426636,
+    "epoch": 0.249,
     "step": 249
   },
   {
-    "loss": 0.379,
-    "grad_norm": 2.3508005142211914,
-    "learning_rate": 1.754e-05,
-    "num_tokens": 84637.0,
-    "mean_token_accuracy": 0.9217221140861511,
-    "epoch": 0.125,
+    "loss": 0.1292,
+    "grad_norm": 1.2723866701126099,
+    "learning_rate": 1.753e-05,
+    "num_tokens": 169695.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 0.25,
     "step": 250
   },
   {
-    "loss": 0.0941,
-    "grad_norm": 2.0986952781677246,
-    "learning_rate": 1.753e-05,
-    "num_tokens": 84728.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1255,
+    "loss": 0.1302,
+    "grad_norm": 1.8454350233078003,
+    "learning_rate": 1.752e-05,
+    "num_tokens": 170298.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.251,
     "step": 251
   },
   {
-    "loss": 0.0924,
-    "grad_norm": 1.9180539846420288,
-    "learning_rate": 1.752e-05,
-    "num_tokens": 84819.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.126,
+    "loss": 0.1214,
+    "grad_norm": 0.9049779176712036,
+    "learning_rate": 1.751e-05,
+    "num_tokens": 171322.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 0.252,
     "step": 252
   },
   {
-    "loss": 0.0906,
-    "grad_norm": 1.0870189666748047,
-    "learning_rate": 1.751e-05,
-    "num_tokens": 84910.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1265,
+    "loss": 0.1365,
+    "grad_norm": 1.0442427396774292,
+    "learning_rate": 1.7500000000000002e-05,
+    "num_tokens": 171925.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.253,
     "step": 253
   },
   {
-    "loss": 0.2357,
-    "grad_norm": 1.0672377347946167,
-    "learning_rate": 1.7500000000000002e-05,
-    "num_tokens": 85422.0,
-    "mean_token_accuracy": 0.9412915706634521,
-    "epoch": 0.127,
+    "loss": 0.1294,
+    "grad_norm": 1.2227778434753418,
+    "learning_rate": 1.7490000000000004e-05,
+    "num_tokens": 172528.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 0.254,
     "step": 254
   },
   {
-    "loss": 0.2584,
-    "grad_norm": 2.204198122024536,
-    "learning_rate": 1.7490000000000004e-05,
-    "num_tokens": 85934.0,
-    "mean_token_accuracy": 0.9452054500579834,
-    "epoch": 0.1275,
+    "loss": 0.1232,
+    "grad_norm": 4.070680618286133,
+    "learning_rate": 1.7480000000000002e-05,
+    "num_tokens": 172710.0,
+    "mean_token_accuracy": 0.9777777791023254,
+    "epoch": 0.255,
     "step": 255
   },
   {
-    "loss": 0.0862,
-    "grad_norm": 2.385765552520752,
-    "learning_rate": 1.7480000000000002e-05,
-    "num_tokens": 86025.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.128,
+    "loss": 0.1385,
+    "grad_norm": 1.0301059484481812,
+    "learning_rate": 1.7470000000000004e-05,
+    "num_tokens": 173734.0,
+    "mean_token_accuracy": 0.9667319059371948,
+    "epoch": 0.256,
     "step": 256
   },
   {
-    "loss": 0.2371,
-    "grad_norm": 1.8736376762390137,
-    "learning_rate": 1.7470000000000004e-05,
-    "num_tokens": 86537.0,
-    "mean_token_accuracy": 0.9432485103607178,
-    "epoch": 0.1285,
+    "loss": 0.1155,
+    "grad_norm": 3.19741153717041,
+    "learning_rate": 1.7460000000000002e-05,
+    "num_tokens": 173916.0,
+    "mean_token_accuracy": 0.9777777791023254,
+    "epoch": 0.257,
     "step": 257
   },
   {
-    "loss": 0.2442,
-    "grad_norm": 1.8243354558944702,
-    "learning_rate": 1.7460000000000002e-05,
-    "num_tokens": 87049.0,
-    "mean_token_accuracy": 0.9452054500579834,
-    "epoch": 0.129,
+    "loss": 0.1759,
+    "grad_norm": 1.4615155458450317,
+    "learning_rate": 1.7450000000000004e-05,
+    "num_tokens": 174940.0,
+    "mean_token_accuracy": 0.9579256176948547,
+    "epoch": 0.258,
     "step": 258
   },
   {
-    "loss": 0.0824,
-    "grad_norm": 1.8955978155136108,
-    "learning_rate": 1.7450000000000004e-05,
-    "num_tokens": 87140.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1295,
+    "loss": 0.0943,
+    "grad_norm": 1.0655325651168823,
+    "learning_rate": 1.7440000000000002e-05,
+    "num_tokens": 175543.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.259,
     "step": 259
   },
   {
-    "loss": 0.3363,
-    "grad_norm": 2.798372507095337,
-    "learning_rate": 1.7440000000000002e-05,
-    "num_tokens": 87652.0,
-    "mean_token_accuracy": 0.9393346309661865,
-    "epoch": 0.13,
+    "loss": 0.161,
+    "grad_norm": 1.490907907485962,
+    "learning_rate": 1.743e-05,
+    "num_tokens": 176146.0,
+    "mean_token_accuracy": 0.9633943438529968,
+    "epoch": 0.26,
     "step": 260
   },
   {
-    "loss": 0.0794,
-    "grad_norm": 1.304677128791809,
-    "learning_rate": 1.743e-05,
-    "num_tokens": 87743.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1305,
+    "loss": 0.1444,
+    "grad_norm": 1.0901517868041992,
+    "learning_rate": 1.7420000000000003e-05,
+    "num_tokens": 176749.0,
+    "mean_token_accuracy": 0.961730420589447,
+    "epoch": 0.261,
     "step": 261
   },
   {
-    "loss": 0.0773,
-    "grad_norm": 1.626665711402893,
-    "learning_rate": 1.7420000000000003e-05,
-    "num_tokens": 87834.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.131,
+    "loss": 0.1236,
+    "grad_norm": 0.9282501339912415,
+    "learning_rate": 1.741e-05,
+    "num_tokens": 177352.0,
+    "mean_token_accuracy": 0.9633943438529968,
+    "epoch": 0.262,
     "step": 262
   },
   {
-    "loss": 0.1939,
-    "grad_norm": 1.7440603971481323,
-    "learning_rate": 1.741e-05,
-    "num_tokens": 88346.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.1315,
+    "loss": 0.1433,
+    "grad_norm": 0.9189746379852295,
+    "learning_rate": 1.7400000000000003e-05,
+    "num_tokens": 178376.0,
+    "mean_token_accuracy": 0.9598825573921204,
+    "epoch": 0.263,
     "step": 263
   },
   {
-    "loss": 0.2501,
-    "grad_norm": 1.3810110092163086,
-    "learning_rate": 1.7400000000000003e-05,
-    "num_tokens": 88858.0,
-    "mean_token_accuracy": 0.951076328754425,
-    "epoch": 0.132,
+    "loss": 0.2009,
+    "grad_norm": 1.492387294769287,
+    "learning_rate": 1.739e-05,
+    "num_tokens": 179400.0,
+    "mean_token_accuracy": 0.9481409192085266,
+    "epoch": 0.264,
     "step": 264
   },
   {
-    "loss": 0.3304,
-    "grad_norm": 3.183516025543213,
-    "learning_rate": 1.739e-05,
-    "num_tokens": 89370.0,
-    "mean_token_accuracy": 0.9354207515716553,
-    "epoch": 0.1325,
+    "loss": 0.1043,
+    "grad_norm": 2.522902250289917,
+    "learning_rate": 1.7380000000000003e-05,
+    "num_tokens": 179582.0,
+    "mean_token_accuracy": 0.9833333492279053,
+    "epoch": 0.265,
     "step": 265
   },
   {
-    "loss": 0.2224,
-    "grad_norm": 2.094963550567627,
-    "learning_rate": 1.7380000000000003e-05,
-    "num_tokens": 89882.0,
-    "mean_token_accuracy": 0.9471624493598938,
-    "epoch": 0.133,
+    "loss": 0.1314,
+    "grad_norm": 0.9554713368415833,
+    "learning_rate": 1.737e-05,
+    "num_tokens": 180185.0,
+    "mean_token_accuracy": 0.9633943438529968,
+    "epoch": 0.266,
     "step": 266
   },
   {
-    "loss": 0.2354,
-    "grad_norm": 1.3596550226211548,
-    "learning_rate": 1.737e-05,
-    "num_tokens": 90394.0,
-    "mean_token_accuracy": 0.9452054500579834,
-    "epoch": 0.1335,
+    "loss": 0.2562,
+    "grad_norm": 2.1374523639678955,
+    "learning_rate": 1.736e-05,
+    "num_tokens": 180788.0,
+    "mean_token_accuracy": 0.9500831961631775,
+    "epoch": 0.267,
     "step": 267
   },
   {
-    "loss": 0.0727,
-    "grad_norm": 1.5260241031646729,
-    "learning_rate": 1.736e-05,
-    "num_tokens": 90485.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.134,
+    "loss": 0.1107,
+    "grad_norm": 1.1309645175933838,
+    "learning_rate": 1.735e-05,
+    "num_tokens": 181391.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.268,
     "step": 268
   },
   {
-    "loss": 0.222,
-    "grad_norm": 1.5992202758789062,
-    "learning_rate": 1.735e-05,
-    "num_tokens": 90997.0,
-    "mean_token_accuracy": 0.9491193890571594,
-    "epoch": 0.1345,
+    "loss": 0.1078,
+    "grad_norm": 1.058072805404663,
+    "learning_rate": 1.734e-05,
+    "num_tokens": 181994.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.269,
     "step": 269
   },
   {
-    "loss": 0.3177,
-    "grad_norm": 2.2656893730163574,
-    "learning_rate": 1.734e-05,
-    "num_tokens": 91509.0,
-    "mean_token_accuracy": 0.9334638118743896,
-    "epoch": 0.135,
+    "loss": 0.2352,
+    "grad_norm": 1.608152151107788,
+    "learning_rate": 1.7330000000000002e-05,
+    "num_tokens": 182597.0,
+    "mean_token_accuracy": 0.9467554092407227,
+    "epoch": 0.27,
     "step": 270
   },
   {
-    "loss": 0.0713,
-    "grad_norm": 1.7473493814468384,
-    "learning_rate": 1.7330000000000002e-05,
-    "num_tokens": 91600.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1355,
+    "loss": 0.1622,
+    "grad_norm": 1.0934463739395142,
+    "learning_rate": 1.732e-05,
+    "num_tokens": 183621.0,
+    "mean_token_accuracy": 0.9589040875434875,
+    "epoch": 0.271,
     "step": 271
   },
   {
-    "loss": 0.2135,
-    "grad_norm": 1.9787451028823853,
-    "learning_rate": 1.732e-05,
-    "num_tokens": 92112.0,
-    "mean_token_accuracy": 0.9471624493598938,
-    "epoch": 0.136,
+    "loss": 0.1006,
+    "grad_norm": 2.80008864402771,
+    "learning_rate": 1.7310000000000002e-05,
+    "num_tokens": 183803.0,
+    "mean_token_accuracy": 0.9833333492279053,
+    "epoch": 0.272,
     "step": 272
   },
   {
-    "loss": 0.1763,
-    "grad_norm": 1.0072226524353027,
-    "learning_rate": 1.7310000000000002e-05,
-    "num_tokens": 92624.0,
-    "mean_token_accuracy": 0.9549902081489563,
-    "epoch": 0.1365,
+    "loss": 0.0997,
+    "grad_norm": 2.4563705921173096,
+    "learning_rate": 1.73e-05,
+    "num_tokens": 183985.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.273,
     "step": 273
   },
   {
-    "loss": 0.1957,
-    "grad_norm": 1.1664408445358276,
-    "learning_rate": 1.73e-05,
-    "num_tokens": 93136.0,
-    "mean_token_accuracy": 0.9471624493598938,
-    "epoch": 0.137,
+    "loss": 0.1004,
+    "grad_norm": 1.0290199518203735,
+    "learning_rate": 1.7290000000000002e-05,
+    "num_tokens": 184588.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.274,
     "step": 274
   },
   {
-    "loss": 0.3349,
-    "grad_norm": 2.7109858989715576,
-    "learning_rate": 1.7290000000000002e-05,
-    "num_tokens": 93648.0,
-    "mean_token_accuracy": 0.9217221140861511,
-    "epoch": 0.1375,
+    "loss": 0.0923,
+    "grad_norm": 1.122008204460144,
+    "learning_rate": 1.728e-05,
+    "num_tokens": 185191.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.275,
     "step": 275
   },
   {
-    "loss": 0.0711,
-    "grad_norm": 2.568545341491699,
-    "learning_rate": 1.728e-05,
-    "num_tokens": 93739.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.138,
+    "loss": 0.1115,
+    "grad_norm": 1.0187288522720337,
+    "learning_rate": 1.7270000000000002e-05,
+    "num_tokens": 185794.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.276,
     "step": 276
   },
   {
-    "loss": 0.1836,
-    "grad_norm": 1.850518822669983,
-    "learning_rate": 1.7270000000000002e-05,
-    "num_tokens": 94251.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.1385,
+    "loss": 0.1316,
+    "grad_norm": 1.0224473476409912,
+    "learning_rate": 1.726e-05,
+    "num_tokens": 186397.0,
+    "mean_token_accuracy": 0.9633943438529968,
+    "epoch": 0.277,
     "step": 277
   },
   {
-    "loss": 0.0695,
-    "grad_norm": 2.5018086433410645,
-    "learning_rate": 1.726e-05,
-    "num_tokens": 94342.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.139,
+    "loss": 0.1278,
+    "grad_norm": 0.842353880405426,
+    "learning_rate": 1.7250000000000003e-05,
+    "num_tokens": 187000.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.278,
     "step": 278
   },
   {
-    "loss": 0.1961,
-    "grad_norm": 0.9769375324249268,
-    "learning_rate": 1.7250000000000003e-05,
-    "num_tokens": 94854.0,
-    "mean_token_accuracy": 0.951076328754425,
-    "epoch": 0.1395,
+    "loss": 0.1162,
+    "grad_norm": 0.9121952056884766,
+    "learning_rate": 1.724e-05,
+    "num_tokens": 187603.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.279,
     "step": 279
   },
   {
-    "loss": 0.2135,
-    "grad_norm": 1.4824577569961548,
-    "learning_rate": 1.724e-05,
-    "num_tokens": 95366.0,
-    "mean_token_accuracy": 0.951076328754425,
-    "epoch": 0.14,
+    "loss": 0.1814,
+    "grad_norm": 1.5726698637008667,
+    "learning_rate": 1.7230000000000003e-05,
+    "num_tokens": 188206.0,
+    "mean_token_accuracy": 0.961730420589447,
+    "epoch": 0.28,
     "step": 280
   },
   {
-    "loss": 0.1623,
-    "grad_norm": 1.7970157861709595,
-    "learning_rate": 1.7230000000000003e-05,
-    "num_tokens": 95878.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.1405,
+    "loss": 0.1851,
+    "grad_norm": 1.1932828426361084,
+    "learning_rate": 1.722e-05,
+    "num_tokens": 189230.0,
+    "mean_token_accuracy": 0.9549902081489563,
+    "epoch": 0.281,
     "step": 281
   },
   {
-    "loss": 0.2098,
-    "grad_norm": 1.702469825744629,
-    "learning_rate": 1.722e-05,
-    "num_tokens": 96390.0,
-    "mean_token_accuracy": 0.9491193890571594,
-    "epoch": 0.141,
+    "loss": 0.0917,
+    "grad_norm": 0.8520850539207458,
+    "learning_rate": 1.7210000000000003e-05,
+    "num_tokens": 189833.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.282,
     "step": 282
   },
   {
-    "loss": 0.0642,
-    "grad_norm": 1.6492910385131836,
-    "learning_rate": 1.7210000000000003e-05,
-    "num_tokens": 96481.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1415,
+    "loss": 0.1059,
+    "grad_norm": 0.9106554985046387,
+    "learning_rate": 1.72e-05,
+    "num_tokens": 190436.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.283,
     "step": 283
   },
   {
-    "loss": 0.1893,
-    "grad_norm": 1.3040688037872314,
-    "learning_rate": 1.72e-05,
-    "num_tokens": 96993.0,
-    "mean_token_accuracy": 0.9549902081489563,
-    "epoch": 0.142,
+    "loss": 0.1725,
+    "grad_norm": 0.8985360860824585,
+    "learning_rate": 1.7190000000000003e-05,
+    "num_tokens": 191460.0,
+    "mean_token_accuracy": 0.9628180265426636,
+    "epoch": 0.284,
     "step": 284
   },
   {
-    "loss": 0.0638,
-    "grad_norm": 2.035078287124634,
-    "learning_rate": 1.7190000000000003e-05,
-    "num_tokens": 97084.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1425,
+    "loss": 0.1202,
+    "grad_norm": 0.7162396311759949,
+    "learning_rate": 1.718e-05,
+    "num_tokens": 192484.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 0.285,
     "step": 285
   },
   {
-    "loss": 0.0617,
-    "grad_norm": 1.428052306175232,
-    "learning_rate": 1.718e-05,
-    "num_tokens": 97175.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.143,
+    "loss": 0.1194,
+    "grad_norm": 1.0312271118164062,
+    "learning_rate": 1.7170000000000003e-05,
+    "num_tokens": 193087.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 0.286,
     "step": 286
   },
   {
-    "loss": 0.1591,
-    "grad_norm": 1.416749119758606,
-    "learning_rate": 1.7170000000000003e-05,
-    "num_tokens": 97687.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.1435,
+    "loss": 0.1191,
+    "grad_norm": 0.7298357486724854,
+    "learning_rate": 1.7160000000000002e-05,
+    "num_tokens": 194111.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 0.287,
     "step": 287
   },
   {
-    "loss": 0.1787,
-    "grad_norm": 1.3673189878463745,
-    "learning_rate": 1.7160000000000002e-05,
-    "num_tokens": 98199.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.144,
+    "loss": 0.0851,
+    "grad_norm": 1.0276390314102173,
+    "learning_rate": 1.7150000000000004e-05,
+    "num_tokens": 194714.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.288,
     "step": 288
   },
   {
-    "loss": 0.324,
-    "grad_norm": 3.40804386138916,
-    "learning_rate": 1.7150000000000004e-05,
-    "num_tokens": 98711.0,
-    "mean_token_accuracy": 0.931506872177124,
-    "epoch": 0.1445,
+    "loss": 0.2002,
+    "grad_norm": 1.568818211555481,
+    "learning_rate": 1.7140000000000002e-05,
+    "num_tokens": 195317.0,
+    "mean_token_accuracy": 0.9534109830856323,
+    "epoch": 0.289,
     "step": 289
   },
   {
-    "loss": 0.0582,
-    "grad_norm": 2.4875428676605225,
-    "learning_rate": 1.7140000000000002e-05,
-    "num_tokens": 98802.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.145,
+    "loss": 0.1024,
+    "grad_norm": 4.6199164390563965,
+    "learning_rate": 1.7130000000000004e-05,
+    "num_tokens": 195499.0,
+    "mean_token_accuracy": 0.9777777791023254,
+    "epoch": 0.29,
     "step": 290
   },
   {
-    "loss": 0.1816,
-    "grad_norm": 1.6370735168457031,
-    "learning_rate": 1.7130000000000004e-05,
-    "num_tokens": 99314.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.1455,
+    "loss": 0.0943,
+    "grad_norm": 3.7376346588134766,
+    "learning_rate": 1.7120000000000002e-05,
+    "num_tokens": 195681.0,
+    "mean_token_accuracy": 0.9777777791023254,
+    "epoch": 0.291,
     "step": 291
   },
   {
-    "loss": 0.0556,
-    "grad_norm": 2.5525963306427,
-    "learning_rate": 1.7120000000000002e-05,
-    "num_tokens": 99405.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.146,
+    "loss": 0.1661,
+    "grad_norm": 1.5466440916061401,
+    "learning_rate": 1.711e-05,
+    "num_tokens": 196284.0,
+    "mean_token_accuracy": 0.9650582075119019,
+    "epoch": 0.292,
     "step": 292
   },
   {
-    "loss": 0.1861,
-    "grad_norm": 2.1719298362731934,
-    "learning_rate": 1.711e-05,
-    "num_tokens": 99917.0,
-    "mean_token_accuracy": 0.9549902081489563,
-    "epoch": 0.1465,
+    "loss": 0.1147,
+    "grad_norm": 0.7724754214286804,
+    "learning_rate": 1.7100000000000002e-05,
+    "num_tokens": 196887.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.293,
     "step": 293
   },
   {
-    "loss": 0.201,
-    "grad_norm": 1.304052472114563,
-    "learning_rate": 1.7100000000000002e-05,
-    "num_tokens": 100429.0,
-    "mean_token_accuracy": 0.9491193890571594,
-    "epoch": 0.147,
+    "loss": 0.1026,
+    "grad_norm": 0.9492689371109009,
+    "learning_rate": 1.709e-05,
+    "num_tokens": 197490.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.294,
     "step": 294
   },
   {
-    "loss": 0.1531,
-    "grad_norm": 1.5254027843475342,
-    "learning_rate": 1.709e-05,
-    "num_tokens": 100941.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.1475,
+    "loss": 0.1205,
+    "grad_norm": 1.0238693952560425,
+    "learning_rate": 1.7080000000000002e-05,
+    "num_tokens": 198093.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.295,
     "step": 295
   },
   {
-    "loss": 0.2727,
-    "grad_norm": 2.922405242919922,
-    "learning_rate": 1.7080000000000002e-05,
-    "num_tokens": 101453.0,
-    "mean_token_accuracy": 0.9432485103607178,
-    "epoch": 0.148,
+    "loss": 0.212,
+    "grad_norm": 1.9184578657150269,
+    "learning_rate": 1.707e-05,
+    "num_tokens": 198696.0,
+    "mean_token_accuracy": 0.9500831961631775,
+    "epoch": 0.296,
     "step": 296
   },
   {
-    "loss": 0.1459,
-    "grad_norm": 1.7082411050796509,
-    "learning_rate": 1.707e-05,
-    "num_tokens": 101965.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.1485,
+    "loss": 0.1069,
+    "grad_norm": 0.9579708576202393,
+    "learning_rate": 1.7060000000000003e-05,
+    "num_tokens": 199299.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.297,
     "step": 297
   },
   {
-    "loss": 0.174,
-    "grad_norm": 1.3555234670639038,
-    "learning_rate": 1.7060000000000003e-05,
-    "num_tokens": 102477.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.149,
+    "loss": 0.0898,
+    "grad_norm": 0.803164005279541,
+    "learning_rate": 1.705e-05,
+    "num_tokens": 199902.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.298,
     "step": 298
   },
   {
-    "loss": 0.1749,
-    "grad_norm": 0.9526453018188477,
-    "learning_rate": 1.705e-05,
-    "num_tokens": 102989.0,
-    "mean_token_accuracy": 0.9530332684516907,
-    "epoch": 0.1495,
+    "loss": 0.1047,
+    "grad_norm": 0.9029723405838013,
+    "learning_rate": 1.704e-05,
+    "num_tokens": 200505.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.299,
     "step": 299
   },
   {
-    "loss": 0.1751,
-    "grad_norm": 1.491074800491333,
-    "learning_rate": 1.704e-05,
-    "num_tokens": 103501.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.15,
+    "loss": 0.1009,
+    "grad_norm": 0.8454239964485168,
+    "learning_rate": 1.703e-05,
+    "num_tokens": 201529.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.3,
     "step": 300
   },
   {
-    "loss": 0.3221,
-    "grad_norm": 3.0102553367614746,
-    "learning_rate": 1.703e-05,
-    "num_tokens": 104013.0,
-    "mean_token_accuracy": 0.9178082346916199,
-    "epoch": 0.1505,
+    "loss": 0.12,
+    "grad_norm": 1.1490987539291382,
+    "learning_rate": 1.702e-05,
+    "num_tokens": 202132.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.301,
     "step": 301
   },
   {
-    "loss": 0.1546,
-    "grad_norm": 2.2727670669555664,
-    "learning_rate": 1.702e-05,
-    "num_tokens": 104525.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.151,
+    "loss": 0.0849,
+    "grad_norm": 3.5246822834014893,
+    "learning_rate": 1.701e-05,
+    "num_tokens": 202314.0,
+    "mean_token_accuracy": 0.9777777791023254,
+    "epoch": 0.302,
     "step": 302
   },
   {
-    "loss": 0.1623,
-    "grad_norm": 1.1690260171890259,
-    "learning_rate": 1.701e-05,
-    "num_tokens": 105037.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.1515,
+    "loss": 0.1273,
+    "grad_norm": 0.8553935885429382,
+    "learning_rate": 1.7e-05,
+    "num_tokens": 203338.0,
+    "mean_token_accuracy": 0.965753436088562,
+    "epoch": 0.303,
     "step": 303
   },
   {
-    "loss": 0.1757,
-    "grad_norm": 1.3821128606796265,
-    "learning_rate": 1.7e-05,
-    "num_tokens": 105549.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.152,
+    "loss": 0.1041,
+    "grad_norm": 0.8264068365097046,
+    "learning_rate": 1.699e-05,
+    "num_tokens": 204362.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.304,
     "step": 304
   },
   {
-    "loss": 0.1345,
-    "grad_norm": 1.1042118072509766,
-    "learning_rate": 1.699e-05,
-    "num_tokens": 106061.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.1525,
+    "loss": 0.168,
+    "grad_norm": 1.5330549478530884,
+    "learning_rate": 1.698e-05,
+    "num_tokens": 204965.0,
+    "mean_token_accuracy": 0.9650582075119019,
+    "epoch": 0.305,
     "step": 305
   },
   {
-    "loss": 0.1709,
-    "grad_norm": 1.283263087272644,
-    "learning_rate": 1.698e-05,
-    "num_tokens": 106573.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.153,
-    "step": 306
-  },
-  {
-    "loss": 0.1741,
-    "grad_norm": 1.0933341979980469,
+    "loss": 0.1058,
+    "grad_norm": 0.7781637907028198,
     "learning_rate": 1.6970000000000002e-05,
-    "num_tokens": 107085.0,
-    "mean_token_accuracy": 0.9530332684516907,
-    "epoch": 0.1535,
-    "step": 307
+    "num_tokens": 205989.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 0.306,
+    "step": 306
   },
   {
-    "loss": 0.1479,
-    "grad_norm": 1.3540836572647095,
+    "loss": 0.0869,
+    "grad_norm": 3.432866334915161,
     "learning_rate": 1.696e-05,
-    "num_tokens": 107597.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.154,
-    "step": 308
+    "num_tokens": 206171.0,
+    "mean_token_accuracy": 0.9777777791023254,
+    "epoch": 0.307,
+    "step": 307
   },
   {
-    "loss": 0.094,
-    "grad_norm": 5.643751621246338,
+    "loss": 0.0821,
+    "grad_norm": 0.8514496684074402,
     "learning_rate": 1.6950000000000002e-05,
-    "num_tokens": 107688.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.1545,
-    "step": 309
+    "num_tokens": 207195.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.308,
+    "step": 308
   },
   {
-    "loss": 0.091,
-    "grad_norm": 5.622400760650635,
+    "loss": 0.1268,
+    "grad_norm": 1.127798318862915,
     "learning_rate": 1.694e-05,
-    "num_tokens": 107779.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.155,
-    "step": 310
+    "num_tokens": 207798.0,
+    "mean_token_accuracy": 0.9650582075119019,
+    "epoch": 0.309,
+    "step": 309
   },
   {
-    "loss": 0.1534,
-    "grad_norm": 0.9459224343299866,
+    "loss": 0.1019,
+    "grad_norm": 1.4073783159255981,
     "learning_rate": 1.6930000000000002e-05,
-    "num_tokens": 108291.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.1555,
-    "step": 311
+    "num_tokens": 208401.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.31,
+    "step": 310
   },
   {
-    "loss": 0.0764,
-    "grad_norm": 4.563518047332764,
+    "loss": 0.1184,
+    "grad_norm": 1.0207278728485107,
     "learning_rate": 1.692e-05,
-    "num_tokens": 108382.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.156,
-    "step": 312
+    "num_tokens": 209004.0,
+    "mean_token_accuracy": 0.9667221307754517,
+    "epoch": 0.311,
+    "step": 311
   },
   {
-    "loss": 0.0689,
-    "grad_norm": 3.9746463298797607,
+    "loss": 0.0843,
+    "grad_norm": 0.8584610223770142,
     "learning_rate": 1.6910000000000002e-05,
-    "num_tokens": 108473.0,
-    "mean_token_accuracy": 0.9777777791023254,
-    "epoch": 0.1565,
-    "step": 313
+    "num_tokens": 209607.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.312,
+    "step": 312
   },
   {
-    "loss": 0.1265,
-    "grad_norm": 1.5034980773925781,
+    "loss": 0.1054,
+    "grad_norm": 0.8356302976608276,
     "learning_rate": 1.69e-05,
-    "num_tokens": 108985.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.157,
-    "step": 314
+    "num_tokens": 210631.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 0.313,
+    "step": 313
   },
   {
-    "loss": 0.055,
-    "grad_norm": 2.8813798427581787,
+    "loss": 0.1067,
+    "grad_norm": 0.9864552021026611,
     "learning_rate": 1.6890000000000003e-05,
-    "num_tokens": 109076.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1575,
-    "step": 315
+    "num_tokens": 211234.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.314,
+    "step": 314
   },
   {
-    "loss": 0.0502,
-    "grad_norm": 2.0983633995056152,
+    "loss": 0.0743,
+    "grad_norm": 2.7141575813293457,
     "learning_rate": 1.688e-05,
-    "num_tokens": 109167.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.158,
-    "step": 316
+    "num_tokens": 211416.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.315,
+    "step": 315
   },
   {
-    "loss": 0.1459,
-    "grad_norm": 2.4966609477996826,
+    "loss": 0.0712,
+    "grad_norm": 2.0179872512817383,
     "learning_rate": 1.6870000000000003e-05,
-    "num_tokens": 109679.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.1585,
-    "step": 317
+    "num_tokens": 211598.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.316,
+    "step": 316
   },
   {
-    "loss": 0.1373,
-    "grad_norm": 1.884824514389038,
+    "loss": 0.0974,
+    "grad_norm": 0.8369526863098145,
     "learning_rate": 1.686e-05,
-    "num_tokens": 110191.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.159,
-    "step": 318
+    "num_tokens": 212622.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.317,
+    "step": 317
   },
   {
-    "loss": 0.12,
-    "grad_norm": 1.6215541362762451,
+    "loss": 0.0681,
+    "grad_norm": 1.5807322263717651,
     "learning_rate": 1.6850000000000003e-05,
-    "num_tokens": 110703.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.1595,
-    "step": 319
+    "num_tokens": 212804.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.318,
+    "step": 318
   },
   {
-    "loss": 0.0514,
-    "grad_norm": 3.570695400238037,
+    "loss": 0.1056,
+    "grad_norm": 0.9928346872329712,
     "learning_rate": 1.684e-05,
-    "num_tokens": 110794.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.16,
-    "step": 320
+    "num_tokens": 213407.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.319,
+    "step": 319
   },
   {
-    "loss": 0.0503,
-    "grad_norm": 3.7310097217559814,
+    "loss": 0.0641,
+    "grad_norm": 1.4489860534667969,
     "learning_rate": 1.6830000000000003e-05,
-    "num_tokens": 110885.0,
+    "num_tokens": 213589.0,
     "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1605,
-    "step": 321
+    "epoch": 0.32,
+    "step": 320
   },
   {
-    "loss": 0.1698,
-    "grad_norm": 1.3565757274627686,
+    "loss": 0.1246,
+    "grad_norm": 1.0914169549942017,
     "learning_rate": 1.682e-05,
-    "num_tokens": 111397.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.161,
-    "step": 322
+    "num_tokens": 214613.0,
+    "mean_token_accuracy": 0.9628180265426636,
+    "epoch": 0.321,
+    "step": 321
   },
   {
-    "loss": 0.144,
-    "grad_norm": 1.7988064289093018,
+    "loss": 0.0848,
+    "grad_norm": 1.0644992589950562,
     "learning_rate": 1.6810000000000003e-05,
-    "num_tokens": 111909.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.1615,
-    "step": 323
+    "num_tokens": 215216.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.322,
+    "step": 322
   },
   {
-    "loss": 0.1553,
-    "grad_norm": 1.199349284172058,
+    "loss": 0.1016,
+    "grad_norm": 0.9731497168540955,
     "learning_rate": 1.6800000000000002e-05,
-    "num_tokens": 112421.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.162,
-    "step": 324
+    "num_tokens": 215819.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.323,
+    "step": 323
   },
   {
-    "loss": 0.2808,
-    "grad_norm": 2.2785050868988037,
+    "loss": 0.1109,
+    "grad_norm": 0.79487144947052,
     "learning_rate": 1.679e-05,
-    "num_tokens": 112933.0,
-    "mean_token_accuracy": 0.9412915706634521,
-    "epoch": 0.1625,
-    "step": 325
+    "num_tokens": 216843.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 0.324,
+    "step": 324
   },
   {
-    "loss": 0.1303,
-    "grad_norm": 1.4797053337097168,
+    "loss": 0.1212,
+    "grad_norm": 0.84676593542099,
     "learning_rate": 1.6780000000000002e-05,
-    "num_tokens": 113445.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.163,
-    "step": 326
+    "num_tokens": 217867.0,
+    "mean_token_accuracy": 0.965753436088562,
+    "epoch": 0.325,
+    "step": 325
   },
   {
-    "loss": 0.1437,
-    "grad_norm": 1.2159603834152222,
+    "loss": 0.0666,
+    "grad_norm": 0.9512737393379211,
     "learning_rate": 1.677e-05,
-    "num_tokens": 113957.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.1635,
-    "step": 327
+    "num_tokens": 218470.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.326,
+    "step": 326
   },
   {
-    "loss": 0.1094,
-    "grad_norm": 1.3378634452819824,
+    "loss": 0.0712,
+    "grad_norm": 4.367532730102539,
     "learning_rate": 1.6760000000000002e-05,
-    "num_tokens": 114469.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.164,
-    "step": 328
+    "num_tokens": 218652.0,
+    "mean_token_accuracy": 0.9777777791023254,
+    "epoch": 0.327,
+    "step": 327
   },
   {
-    "loss": 0.1107,
-    "grad_norm": 1.3265125751495361,
+    "loss": 0.0935,
+    "grad_norm": 1.0136102437973022,
     "learning_rate": 1.675e-05,
-    "num_tokens": 114981.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.1645,
-    "step": 329
+    "num_tokens": 219255.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.328,
+    "step": 328
   },
   {
-    "loss": 0.104,
-    "grad_norm": 1.0398075580596924,
+    "loss": 0.0958,
+    "grad_norm": 0.7100754380226135,
     "learning_rate": 1.6740000000000002e-05,
-    "num_tokens": 115493.0,
+    "num_tokens": 220279.0,
     "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.165,
-    "step": 330
+    "epoch": 0.329,
+    "step": 329
   },
   {
-    "loss": 0.0508,
-    "grad_norm": 3.7928128242492676,
+    "loss": 0.0768,
+    "grad_norm": 1.1508314609527588,
     "learning_rate": 1.673e-05,
-    "num_tokens": 115584.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1655,
-    "step": 331
+    "num_tokens": 220882.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.33,
+    "step": 330
   },
   {
-    "loss": 0.1141,
-    "grad_norm": 1.543946385383606,
+    "loss": 0.0923,
+    "grad_norm": 0.6459121108055115,
     "learning_rate": 1.672e-05,
-    "num_tokens": 116096.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.166,
-    "step": 332
+    "num_tokens": 221906.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.331,
+    "step": 331
   },
   {
-    "loss": 0.2347,
-    "grad_norm": 3.0478694438934326,
+    "loss": 0.1377,
+    "grad_norm": 1.2035995721817017,
     "learning_rate": 1.671e-05,
-    "num_tokens": 116608.0,
-    "mean_token_accuracy": 0.9530332684516907,
-    "epoch": 0.1665,
-    "step": 333
+    "num_tokens": 222930.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 0.332,
+    "step": 332
   },
   {
-    "loss": 0.1568,
-    "grad_norm": 1.438165307044983,
+    "loss": 0.1404,
+    "grad_norm": 1.2314244508743286,
     "learning_rate": 1.67e-05,
-    "num_tokens": 117120.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.167,
-    "step": 334
+    "num_tokens": 223954.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 0.333,
+    "step": 333
   },
   {
-    "loss": 0.0602,
-    "grad_norm": 4.521894454956055,
+    "loss": 0.0721,
+    "grad_norm": 1.5412744283676147,
     "learning_rate": 1.669e-05,
-    "num_tokens": 117211.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1675,
-    "step": 335
+    "num_tokens": 224557.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.334,
+    "step": 334
   },
   {
-    "loss": 0.0575,
-    "grad_norm": 4.285327434539795,
+    "loss": 0.093,
+    "grad_norm": 1.1724885702133179,
     "learning_rate": 1.668e-05,
-    "num_tokens": 117302.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.168,
-    "step": 336
+    "num_tokens": 225581.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.335,
+    "step": 335
   },
   {
-    "loss": 0.1228,
-    "grad_norm": 1.7977162599563599,
+    "loss": 0.0948,
+    "grad_norm": 1.1767406463623047,
     "learning_rate": 1.667e-05,
-    "num_tokens": 117814.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.1685,
-    "step": 337
+    "num_tokens": 226184.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.336,
+    "step": 336
   },
   {
-    "loss": 0.0498,
-    "grad_norm": 3.2977139949798584,
+    "loss": 0.1091,
+    "grad_norm": 0.8806567192077637,
     "learning_rate": 1.666e-05,
-    "num_tokens": 117905.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.169,
-    "step": 338
+    "num_tokens": 227208.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 0.337,
+    "step": 337
   },
   {
-    "loss": 0.1072,
-    "grad_norm": 1.0961717367172241,
+    "loss": 0.1123,
+    "grad_norm": 0.7883885502815247,
     "learning_rate": 1.665e-05,
-    "num_tokens": 118417.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.1695,
-    "step": 339
+    "num_tokens": 228232.0,
+    "mean_token_accuracy": 0.9667319059371948,
+    "epoch": 0.338,
+    "step": 338
   },
   {
-    "loss": 0.0888,
-    "grad_norm": 1.2719725370407104,
+    "loss": 0.1244,
+    "grad_norm": 1.631230115890503,
     "learning_rate": 1.664e-05,
-    "num_tokens": 118929.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.17,
-    "step": 340
+    "num_tokens": 229256.0,
+    "mean_token_accuracy": 0.9637964963912964,
+    "epoch": 0.339,
+    "step": 339
   },
   {
-    "loss": 0.1016,
-    "grad_norm": 1.7138031721115112,
+    "loss": 0.0632,
+    "grad_norm": 3.258474588394165,
     "learning_rate": 1.6630000000000002e-05,
-    "num_tokens": 119441.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.1705,
-    "step": 341
+    "num_tokens": 229438.0,
+    "mean_token_accuracy": 0.9777777791023254,
+    "epoch": 0.34,
+    "step": 340
   },
   {
-    "loss": 0.0775,
-    "grad_norm": 1.2170872688293457,
+    "loss": 0.1013,
+    "grad_norm": 0.8189828395843506,
     "learning_rate": 1.662e-05,
-    "num_tokens": 119953.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.171,
-    "step": 342
+    "num_tokens": 230462.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 0.341,
+    "step": 341
   },
   {
-    "loss": 0.0415,
-    "grad_norm": 2.3039064407348633,
+    "loss": 0.0942,
+    "grad_norm": 1.1684011220932007,
     "learning_rate": 1.6610000000000002e-05,
-    "num_tokens": 120044.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.1715,
-    "step": 343
+    "num_tokens": 231065.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.342,
+    "step": 342
   },
   {
-    "loss": 0.0407,
-    "grad_norm": 2.1441495418548584,
+    "loss": 0.1017,
+    "grad_norm": 0.8611066341400146,
     "learning_rate": 1.66e-05,
-    "num_tokens": 120135.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.172,
-    "step": 344
+    "num_tokens": 232089.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 0.343,
+    "step": 343
   },
   {
-    "loss": 0.0378,
-    "grad_norm": 1.570320725440979,
+    "loss": 0.117,
+    "grad_norm": 1.0313893556594849,
     "learning_rate": 1.6590000000000002e-05,
-    "num_tokens": 120226.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.1725,
-    "step": 345
+    "num_tokens": 233113.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.344,
+    "step": 344
   },
   {
-    "loss": 0.0358,
-    "grad_norm": 1.359679937362671,
+    "loss": 0.0756,
+    "grad_norm": 0.7209411859512329,
     "learning_rate": 1.658e-05,
-    "num_tokens": 120317.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.173,
-    "step": 346
+    "num_tokens": 234137.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.345,
+    "step": 345
   },
   {
-    "loss": 0.1491,
-    "grad_norm": 1.4656238555908203,
+    "loss": 0.0577,
+    "grad_norm": 2.9187569618225098,
     "learning_rate": 1.6570000000000002e-05,
-    "num_tokens": 120829.0,
-    "mean_token_accuracy": 0.9530332684516907,
-    "epoch": 0.1735,
-    "step": 347
+    "num_tokens": 234319.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.346,
+    "step": 346
   },
   {
-    "loss": 0.093,
-    "grad_norm": 1.550439715385437,
+    "loss": 0.084,
+    "grad_norm": 0.8220289349555969,
     "learning_rate": 1.656e-05,
-    "num_tokens": 121341.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.174,
-    "step": 348
+    "num_tokens": 234922.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.347,
+    "step": 347
   },
   {
-    "loss": 0.1191,
-    "grad_norm": 1.6594032049179077,
+    "loss": 0.0972,
+    "grad_norm": 0.8616042733192444,
     "learning_rate": 1.6550000000000002e-05,
-    "num_tokens": 121853.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.1745,
-    "step": 349
+    "num_tokens": 235946.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.348,
+    "step": 348
   },
   {
-    "loss": 0.1667,
-    "grad_norm": 1.6316683292388916,
+    "loss": 0.1023,
+    "grad_norm": 0.815368115901947,
     "learning_rate": 1.654e-05,
-    "num_tokens": 122365.0,
-    "mean_token_accuracy": 0.951076328754425,
-    "epoch": 0.175,
-    "step": 350
+    "num_tokens": 236970.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 0.349,
+    "step": 349
   },
   {
-    "loss": 0.1172,
-    "grad_norm": 1.1592111587524414,
+    "loss": 0.0811,
+    "grad_norm": 0.9861577749252319,
     "learning_rate": 1.6530000000000003e-05,
-    "num_tokens": 122877.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.1755,
-    "step": 351
+    "num_tokens": 237994.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 0.35,
+    "step": 350
   },
   {
-    "loss": 0.0288,
-    "grad_norm": 1.2376233339309692,
+    "loss": 0.0603,
+    "grad_norm": 2.2262823581695557,
     "learning_rate": 1.652e-05,
-    "num_tokens": 122968.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.176,
-    "step": 352
+    "num_tokens": 238597.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.351,
+    "step": 351
   },
   {
-    "loss": 0.0279,
-    "grad_norm": 1.1726553440093994,
+    "loss": 0.1032,
+    "grad_norm": 0.8391550183296204,
     "learning_rate": 1.6510000000000003e-05,
-    "num_tokens": 123059.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.1765,
-    "step": 353
+    "num_tokens": 239621.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 0.352,
+    "step": 352
   },
   {
-    "loss": 0.158,
-    "grad_norm": 1.639247179031372,
+    "loss": 0.1072,
+    "grad_norm": 0.7724818587303162,
     "learning_rate": 1.65e-05,
-    "num_tokens": 123571.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.177,
-    "step": 354
+    "num_tokens": 240224.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.353,
+    "step": 353
   },
   {
-    "loss": 0.0254,
-    "grad_norm": 0.882344126701355,
+    "loss": 0.0929,
+    "grad_norm": 0.7557445764541626,
     "learning_rate": 1.6490000000000003e-05,
-    "num_tokens": 123662.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.1775,
-    "step": 355
+    "num_tokens": 241248.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 0.354,
+    "step": 354
   },
   {
-    "loss": 0.0236,
-    "grad_norm": 0.7603262066841125,
+    "loss": 0.1137,
+    "grad_norm": 0.9282433390617371,
     "learning_rate": 1.648e-05,
-    "num_tokens": 123753.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.178,
-    "step": 356
+    "num_tokens": 241851.0,
+    "mean_token_accuracy": 0.9633943438529968,
+    "epoch": 0.355,
+    "step": 355
   },
   {
-    "loss": 0.0231,
-    "grad_norm": 1.0259835720062256,
+    "loss": 0.0894,
+    "grad_norm": 0.7736088037490845,
     "learning_rate": 1.647e-05,
-    "num_tokens": 123844.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.1785,
-    "step": 357
+    "num_tokens": 242875.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.356,
+    "step": 356
   },
   {
-    "loss": 0.1341,
-    "grad_norm": 1.3803941011428833,
+    "loss": 0.0994,
+    "grad_norm": 0.921101450920105,
     "learning_rate": 1.646e-05,
-    "num_tokens": 124356.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.179,
-    "step": 358
+    "num_tokens": 243478.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.357,
+    "step": 357
   },
   {
-    "loss": 0.26,
-    "grad_norm": 2.67657208442688,
+    "loss": 0.1344,
+    "grad_norm": 1.202441930770874,
     "learning_rate": 1.645e-05,
-    "num_tokens": 124868.0,
-    "mean_token_accuracy": 0.9471624493598938,
-    "epoch": 0.1795,
-    "step": 359
+    "num_tokens": 244502.0,
+    "mean_token_accuracy": 0.9667319059371948,
+    "epoch": 0.358,
+    "step": 358
   },
   {
-    "loss": 0.0787,
-    "grad_norm": 1.1956502199172974,
+    "loss": 0.099,
+    "grad_norm": 0.9869626760482788,
     "learning_rate": 1.6440000000000002e-05,
-    "num_tokens": 125380.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.18,
-    "step": 360
+    "num_tokens": 245105.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 0.359,
+    "step": 359
   },
   {
-    "loss": 0.0184,
-    "grad_norm": 1.0563417673110962,
+    "loss": 0.1427,
+    "grad_norm": 1.0982835292816162,
     "learning_rate": 1.643e-05,
-    "num_tokens": 125471.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.1805,
-    "step": 361
+    "num_tokens": 246129.0,
+    "mean_token_accuracy": 0.9598825573921204,
+    "epoch": 0.36,
+    "step": 360
   },
   {
-    "loss": 0.2769,
-    "grad_norm": 3.5824198722839355,
+    "loss": 0.0681,
+    "grad_norm": 0.9747059345245361,
     "learning_rate": 1.6420000000000002e-05,
-    "num_tokens": 125983.0,
-    "mean_token_accuracy": 0.9393346309661865,
-    "epoch": 0.181,
-    "step": 362
+    "num_tokens": 246732.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.361,
+    "step": 361
   },
   {
-    "loss": 0.017,
-    "grad_norm": 0.9444816708564758,
+    "loss": 0.0716,
+    "grad_norm": 1.0156511068344116,
     "learning_rate": 1.641e-05,
-    "num_tokens": 126074.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.1815,
-    "step": 363
+    "num_tokens": 247335.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.362,
+    "step": 362
   },
   {
-    "loss": 0.1499,
-    "grad_norm": 1.6610344648361206,
+    "loss": 0.4351,
+    "grad_norm": 6.821441650390625,
     "learning_rate": 1.64e-05,
-    "num_tokens": 126586.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.182,
-    "step": 364
+    "num_tokens": 247938.0,
+    "mean_token_accuracy": 0.9151414036750793,
+    "epoch": 0.363,
+    "step": 363
   },
   {
-    "loss": 0.0159,
-    "grad_norm": 1.3713178634643555,
+    "loss": 0.0743,
+    "grad_norm": 0.8414461016654968,
     "learning_rate": 1.639e-05,
-    "num_tokens": 126677.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.1825,
-    "step": 365
+    "num_tokens": 248541.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.364,
+    "step": 364
   },
   {
-    "loss": 0.0142,
-    "grad_norm": 0.7958543300628662,
+    "loss": 0.0844,
+    "grad_norm": 0.9070030450820923,
     "learning_rate": 1.638e-05,
-    "num_tokens": 126768.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.183,
-    "step": 366
+    "num_tokens": 249565.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.365,
+    "step": 365
   },
   {
-    "loss": 0.0136,
-    "grad_norm": 0.7060168385505676,
+    "loss": 0.0697,
+    "grad_norm": 0.9378820657730103,
     "learning_rate": 1.637e-05,
-    "num_tokens": 126859.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.1835,
-    "step": 367
+    "num_tokens": 250589.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.366,
+    "step": 366
   },
   {
-    "loss": 0.0126,
-    "grad_norm": 0.6885517239570618,
+    "loss": 0.0452,
+    "grad_norm": 2.362260341644287,
     "learning_rate": 1.636e-05,
-    "num_tokens": 126950.0,
+    "num_tokens": 250771.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.184,
-    "step": 368
+    "epoch": 0.367,
+    "step": 367
   },
   {
-    "loss": 0.1437,
-    "grad_norm": 1.7837411165237427,
+    "loss": 0.0658,
+    "grad_norm": 0.9978799819946289,
     "learning_rate": 1.635e-05,
-    "num_tokens": 127462.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.1845,
-    "step": 369
+    "num_tokens": 251374.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.368,
+    "step": 368
   },
   {
-    "loss": 0.1352,
-    "grad_norm": 1.0794353485107422,
+    "loss": 0.139,
+    "grad_norm": 1.415355920791626,
     "learning_rate": 1.634e-05,
-    "num_tokens": 127974.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.185,
-    "step": 370
+    "num_tokens": 252398.0,
+    "mean_token_accuracy": 0.9589040875434875,
+    "epoch": 0.369,
+    "step": 369
   },
   {
-    "loss": 0.1036,
-    "grad_norm": 1.2649973630905151,
+    "loss": 0.0418,
+    "grad_norm": 1.903359293937683,
     "learning_rate": 1.633e-05,
-    "num_tokens": 128486.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.1855,
-    "step": 371
+    "num_tokens": 252580.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.37,
+    "step": 370
   },
   {
-    "loss": 0.082,
-    "grad_norm": 1.4123811721801758,
+    "loss": 0.0788,
+    "grad_norm": 1.4235386848449707,
     "learning_rate": 1.632e-05,
-    "num_tokens": 128998.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.186,
-    "step": 372
+    "num_tokens": 253183.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.371,
+    "step": 371
   },
   {
-    "loss": 0.2251,
-    "grad_norm": 2.3190250396728516,
+    "loss": 0.0378,
+    "grad_norm": 1.322859525680542,
     "learning_rate": 1.631e-05,
-    "num_tokens": 129510.0,
-    "mean_token_accuracy": 0.9549902081489563,
-    "epoch": 0.1865,
-    "step": 373
+    "num_tokens": 253365.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.372,
+    "step": 372
   },
   {
-    "loss": 0.0101,
-    "grad_norm": 1.145607590675354,
+    "loss": 0.0826,
+    "grad_norm": 0.9231904745101929,
     "learning_rate": 1.63e-05,
-    "num_tokens": 129601.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.187,
-    "step": 374
+    "num_tokens": 253968.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.373,
+    "step": 373
   },
   {
-    "loss": 0.01,
-    "grad_norm": 1.1430310010910034,
+    "loss": 0.0338,
+    "grad_norm": 1.1984413862228394,
     "learning_rate": 1.629e-05,
-    "num_tokens": 129692.0,
+    "num_tokens": 254150.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.1875,
-    "step": 375
+    "epoch": 0.374,
+    "step": 374
   },
   {
-    "loss": 0.1157,
-    "grad_norm": 1.080237865447998,
+    "loss": 0.0879,
+    "grad_norm": 1.0001438856124878,
     "learning_rate": 1.628e-05,
-    "num_tokens": 130204.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.188,
-    "step": 376
+    "num_tokens": 255174.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.375,
+    "step": 375
   },
   {
-    "loss": 0.0094,
-    "grad_norm": 0.8564168810844421,
+    "loss": 0.3459,
+    "grad_norm": 5.406961917877197,
     "learning_rate": 1.6270000000000002e-05,
-    "num_tokens": 130295.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.1885,
-    "step": 377
+    "num_tokens": 255777.0,
+    "mean_token_accuracy": 0.9234609007835388,
+    "epoch": 0.376,
+    "step": 376
   },
   {
-    "loss": 0.009,
-    "grad_norm": 0.6895986199378967,
+    "loss": 0.0886,
+    "grad_norm": 1.1185731887817383,
     "learning_rate": 1.626e-05,
-    "num_tokens": 130386.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.189,
-    "step": 378
+    "num_tokens": 256380.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.377,
+    "step": 377
   },
   {
-    "loss": 0.0088,
-    "grad_norm": 0.7237755656242371,
+    "loss": 0.0292,
+    "grad_norm": 1.0933966636657715,
     "learning_rate": 1.6250000000000002e-05,
-    "num_tokens": 130477.0,
+    "num_tokens": 256562.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.1895,
-    "step": 379
+    "epoch": 0.378,
+    "step": 378
   },
   {
-    "loss": 0.0081,
-    "grad_norm": 0.7111520767211914,
+    "loss": 0.0886,
+    "grad_norm": 1.093742847442627,
     "learning_rate": 1.6240000000000004e-05,
-    "num_tokens": 130568.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.19,
-    "step": 380
+    "num_tokens": 257165.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.379,
+    "step": 379
   },
   {
-    "loss": 0.2266,
-    "grad_norm": 3.2268872261047363,
+    "loss": 0.0697,
+    "grad_norm": 1.4595232009887695,
     "learning_rate": 1.6230000000000002e-05,
-    "num_tokens": 131080.0,
-    "mean_token_accuracy": 0.9471624493598938,
-    "epoch": 0.1905,
-    "step": 381
+    "num_tokens": 257768.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.38,
+    "step": 380
   },
   {
-    "loss": 0.1096,
-    "grad_norm": 1.5681886672973633,
+    "loss": 0.0265,
+    "grad_norm": 1.3366799354553223,
     "learning_rate": 1.6220000000000004e-05,
-    "num_tokens": 131592.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.191,
-    "step": 382
+    "num_tokens": 257950.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.381,
+    "step": 381
   },
   {
-    "loss": 0.1323,
-    "grad_norm": 1.1309343576431274,
+    "loss": 0.0886,
+    "grad_norm": 1.2207424640655518,
     "learning_rate": 1.6210000000000002e-05,
-    "num_tokens": 132104.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.1915,
-    "step": 383
+    "num_tokens": 258553.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.382,
+    "step": 382
   },
   {
-    "loss": 0.0065,
-    "grad_norm": 0.4017643630504608,
+    "loss": 0.083,
+    "grad_norm": 1.0224359035491943,
     "learning_rate": 1.62e-05,
-    "num_tokens": 132195.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.192,
-    "step": 384
+    "num_tokens": 259156.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.383,
+    "step": 383
   },
   {
-    "loss": 0.0901,
-    "grad_norm": 1.3869181871414185,
+    "loss": 0.0936,
+    "grad_norm": 1.3029577732086182,
     "learning_rate": 1.6190000000000003e-05,
-    "num_tokens": 132707.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.1925,
-    "step": 385
+    "num_tokens": 260180.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 0.384,
+    "step": 384
   },
   {
-    "loss": 0.135,
-    "grad_norm": 1.0720597505569458,
+    "loss": 0.0825,
+    "grad_norm": 0.9989560842514038,
     "learning_rate": 1.618e-05,
-    "num_tokens": 133219.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.193,
-    "step": 386
+    "num_tokens": 260783.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.385,
+    "step": 385
   },
   {
-    "loss": 0.2196,
-    "grad_norm": 2.46571683883667,
+    "loss": 0.0635,
+    "grad_norm": 0.817306399345398,
     "learning_rate": 1.6170000000000003e-05,
-    "num_tokens": 133731.0,
-    "mean_token_accuracy": 0.9549902081489563,
-    "epoch": 0.1935,
-    "step": 387
+    "num_tokens": 261386.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.386,
+    "step": 386
   },
   {
-    "loss": 0.1479,
-    "grad_norm": 1.4283263683319092,
+    "loss": 0.1573,
+    "grad_norm": 1.521423101425171,
     "learning_rate": 1.616e-05,
-    "num_tokens": 134243.0,
-    "mean_token_accuracy": 0.9549902081489563,
-    "epoch": 0.194,
-    "step": 388
+    "num_tokens": 261989.0,
+    "mean_token_accuracy": 0.960066556930542,
+    "epoch": 0.387,
+    "step": 387
   },
   {
-    "loss": 0.1442,
-    "grad_norm": 1.0318039655685425,
+    "loss": 0.0281,
+    "grad_norm": 2.771691083908081,
     "learning_rate": 1.6150000000000003e-05,
-    "num_tokens": 134755.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.1945,
-    "step": 389
+    "num_tokens": 262171.0,
+    "mean_token_accuracy": 0.9944444298744202,
+    "epoch": 0.388,
+    "step": 388
   },
   {
-    "loss": 0.119,
-    "grad_norm": 0.9293051958084106,
+    "loss": 0.0723,
+    "grad_norm": 0.718820333480835,
     "learning_rate": 1.614e-05,
-    "num_tokens": 135267.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.195,
-    "step": 390
+    "num_tokens": 263195.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.389,
+    "step": 389
   },
   {
-    "loss": 0.0122,
-    "grad_norm": 2.9073522090911865,
+    "loss": 0.029,
+    "grad_norm": 2.9579451084136963,
     "learning_rate": 1.613e-05,
-    "num_tokens": 135358.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.1955,
-    "step": 391
+    "num_tokens": 263377.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.39,
+    "step": 390
   },
   {
-    "loss": 0.0156,
-    "grad_norm": 3.24949049949646,
+    "loss": 0.0807,
+    "grad_norm": 0.7013575434684753,
     "learning_rate": 1.612e-05,
-    "num_tokens": 135449.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.196,
-    "step": 392
+    "num_tokens": 263980.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.391,
+    "step": 391
   },
   {
-    "loss": 0.2428,
-    "grad_norm": 2.2780046463012695,
+    "loss": 0.0899,
+    "grad_norm": 0.8263501524925232,
     "learning_rate": 1.611e-05,
-    "num_tokens": 135961.0,
-    "mean_token_accuracy": 0.951076328754425,
-    "epoch": 0.1965,
-    "step": 393
+    "num_tokens": 265004.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.392,
+    "step": 392
   },
   {
-    "loss": 0.0158,
-    "grad_norm": 2.8313698768615723,
+    "loss": 0.085,
+    "grad_norm": 0.8872665762901306,
     "learning_rate": 1.6100000000000002e-05,
-    "num_tokens": 136052.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.197,
-    "step": 394
+    "num_tokens": 265607.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.393,
+    "step": 393
   },
   {
-    "loss": 0.073,
-    "grad_norm": 1.1441925764083862,
+    "loss": 0.0642,
+    "grad_norm": 0.9370598196983337,
     "learning_rate": 1.609e-05,
-    "num_tokens": 136564.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.1975,
-    "step": 395
+    "num_tokens": 266210.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.394,
+    "step": 394
   },
   {
-    "loss": 0.0713,
-    "grad_norm": 1.0356674194335938,
+    "loss": 0.0829,
+    "grad_norm": 0.8175517916679382,
     "learning_rate": 1.6080000000000002e-05,
-    "num_tokens": 137076.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.198,
-    "step": 396
+    "num_tokens": 267234.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.395,
+    "step": 395
   },
   {
-    "loss": 0.1163,
-    "grad_norm": 0.9958234429359436,
+    "loss": 0.0842,
+    "grad_norm": 0.8722137212753296,
     "learning_rate": 1.607e-05,
-    "num_tokens": 137588.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.1985,
-    "step": 397
+    "num_tokens": 267837.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.396,
+    "step": 396
   },
   {
-    "loss": 0.065,
-    "grad_norm": 1.0690953731536865,
+    "loss": 0.054,
+    "grad_norm": 0.9143010973930359,
     "learning_rate": 1.6060000000000002e-05,
-    "num_tokens": 138100.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.199,
-    "step": 398
+    "num_tokens": 268440.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.397,
+    "step": 397
   },
   {
-    "loss": 0.0143,
-    "grad_norm": 2.4794986248016357,
+    "loss": 0.0764,
+    "grad_norm": 0.9138529896736145,
     "learning_rate": 1.605e-05,
-    "num_tokens": 138191.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.1995,
-    "step": 399
+    "num_tokens": 269043.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.398,
+    "step": 398
   },
   {
-    "loss": 0.1213,
-    "grad_norm": 1.1662561893463135,
+    "loss": 0.0443,
+    "grad_norm": 0.889714777469635,
     "learning_rate": 1.6040000000000002e-05,
-    "num_tokens": 138703.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.2,
-    "step": 400
+    "num_tokens": 269646.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.399,
+    "step": 399
   },
   {
-    "loss": 0.0133,
-    "grad_norm": 2.1572377681732178,
+    "loss": 0.0491,
+    "grad_norm": 0.864485502243042,
     "learning_rate": 1.603e-05,
-    "num_tokens": 138794.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.2005,
-    "step": 401
+    "num_tokens": 270249.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.4,
+    "step": 400
   },
   {
-    "loss": 0.2415,
-    "grad_norm": 2.1097450256347656,
+    "loss": 0.0739,
+    "grad_norm": 0.881671667098999,
     "learning_rate": 1.6020000000000002e-05,
-    "num_tokens": 139306.0,
-    "mean_token_accuracy": 0.9432485103607178,
-    "epoch": 0.201,
-    "step": 402
+    "num_tokens": 271273.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.401,
+    "step": 401
   },
   {
-    "loss": 0.2415,
-    "grad_norm": 1.9146851301193237,
+    "loss": 0.0268,
+    "grad_norm": 3.1773056983947754,
     "learning_rate": 1.601e-05,
-    "num_tokens": 139818.0,
-    "mean_token_accuracy": 0.9412915706634521,
-    "epoch": 0.2015,
-    "step": 403
+    "num_tokens": 271455.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.402,
+    "step": 402
   },
   {
-    "loss": 0.0792,
-    "grad_norm": 1.4688655138015747,
+    "loss": 0.0851,
+    "grad_norm": 0.8216137290000916,
     "learning_rate": 1.6000000000000003e-05,
-    "num_tokens": 140330.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.202,
-    "step": 404
+    "num_tokens": 272058.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.403,
+    "step": 403
   },
   {
-    "loss": 0.1037,
-    "grad_norm": 1.3678481578826904,
+    "loss": 0.0224,
+    "grad_norm": 2.446829319000244,
     "learning_rate": 1.599e-05,
-    "num_tokens": 140842.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.2025,
-    "step": 405
+    "num_tokens": 272240.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.404,
+    "step": 404
   },
   {
-    "loss": 0.0645,
-    "grad_norm": 1.394155740737915,
+    "loss": 0.0646,
+    "grad_norm": 1.87065589427948,
     "learning_rate": 1.5980000000000003e-05,
-    "num_tokens": 141354.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.203,
-    "step": 406
+    "num_tokens": 272843.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.405,
+    "step": 405
   },
   {
-    "loss": 0.1221,
-    "grad_norm": 1.3450697660446167,
+    "loss": 0.0921,
+    "grad_norm": 1.3701424598693848,
     "learning_rate": 1.597e-05,
-    "num_tokens": 141866.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.2035,
-    "step": 407
+    "num_tokens": 273867.0,
+    "mean_token_accuracy": 0.9647749662399292,
+    "epoch": 0.406,
+    "step": 406
   },
   {
-    "loss": 0.0111,
-    "grad_norm": 1.5307925939559937,
+    "loss": 0.0153,
+    "grad_norm": 1.378767967224121,
     "learning_rate": 1.5960000000000003e-05,
-    "num_tokens": 141957.0,
+    "num_tokens": 274049.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.204,
-    "step": 408
+    "epoch": 0.407,
+    "step": 407
   },
   {
-    "loss": 0.0111,
-    "grad_norm": 1.5876197814941406,
+    "loss": 0.0517,
+    "grad_norm": 0.9267370700836182,
     "learning_rate": 1.595e-05,
-    "num_tokens": 142048.0,
+    "num_tokens": 274652.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.408,
+    "step": 408
+  },
+  {
+    "loss": 0.0132,
+    "grad_norm": 0.8789790272712708,
+    "learning_rate": 1.5940000000000003e-05,
+    "num_tokens": 274834.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.2045,
+    "epoch": 0.409,
     "step": 409
   },
   {
-    "loss": 0.1193,
-    "grad_norm": 1.4841184616088867,
-    "learning_rate": 1.5940000000000003e-05,
-    "num_tokens": 142560.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.205,
+    "loss": 0.1174,
+    "grad_norm": 1.7347341775894165,
+    "learning_rate": 1.593e-05,
+    "num_tokens": 275858.0,
+    "mean_token_accuracy": 0.9637964963912964,
+    "epoch": 0.41,
     "step": 410
   },
   {
-    "loss": 0.1328,
-    "grad_norm": 1.1095598936080933,
-    "learning_rate": 1.593e-05,
-    "num_tokens": 143072.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.2055,
+    "loss": 0.0701,
+    "grad_norm": 1.5347058773040771,
+    "learning_rate": 1.5920000000000003e-05,
+    "num_tokens": 276461.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.411,
     "step": 411
   },
   {
-    "loss": 0.0093,
-    "grad_norm": 1.4608124494552612,
-    "learning_rate": 1.5920000000000003e-05,
-    "num_tokens": 143163.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.206,
+    "loss": 0.0559,
+    "grad_norm": 1.1168630123138428,
+    "learning_rate": 1.5910000000000002e-05,
+    "num_tokens": 277064.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.412,
     "step": 412
   },
   {
-    "loss": 0.1107,
-    "grad_norm": 1.4897429943084717,
-    "learning_rate": 1.5910000000000002e-05,
-    "num_tokens": 143675.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.2065,
+    "loss": 0.0107,
+    "grad_norm": 0.6622042655944824,
+    "learning_rate": 1.5900000000000004e-05,
+    "num_tokens": 277246.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.413,
     "step": 413
   },
   {
-    "loss": 0.1984,
-    "grad_norm": 2.675309419631958,
-    "learning_rate": 1.5900000000000004e-05,
-    "num_tokens": 144187.0,
-    "mean_token_accuracy": 0.9530332684516907,
-    "epoch": 0.207,
+    "loss": 0.1178,
+    "grad_norm": 1.3859763145446777,
+    "learning_rate": 1.5890000000000002e-05,
+    "num_tokens": 278270.0,
+    "mean_token_accuracy": 0.965753436088562,
+    "epoch": 0.414,
     "step": 414
   },
   {
-    "loss": 0.0076,
-    "grad_norm": 1.1623023748397827,
-    "learning_rate": 1.5890000000000002e-05,
-    "num_tokens": 144278.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2075,
+    "loss": 0.0964,
+    "grad_norm": 1.1624832153320312,
+    "learning_rate": 1.588e-05,
+    "num_tokens": 279294.0,
+    "mean_token_accuracy": 0.9667319059371948,
+    "epoch": 0.415,
     "step": 415
   },
   {
-    "loss": 0.0063,
-    "grad_norm": 0.732515275478363,
-    "learning_rate": 1.588e-05,
-    "num_tokens": 144369.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.208,
+    "loss": 0.0843,
+    "grad_norm": 1.0634915828704834,
+    "learning_rate": 1.5870000000000002e-05,
+    "num_tokens": 280318.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.416,
     "step": 416
   },
   {
-    "loss": 0.1286,
-    "grad_norm": 1.144338846206665,
-    "learning_rate": 1.5870000000000002e-05,
-    "num_tokens": 144881.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.2085,
+    "loss": 0.2256,
+    "grad_norm": 3.064754009246826,
+    "learning_rate": 1.586e-05,
+    "num_tokens": 281342.0,
+    "mean_token_accuracy": 0.946183979511261,
+    "epoch": 0.417,
     "step": 417
   },
   {
-    "loss": 0.1896,
-    "grad_norm": 2.561152219772339,
-    "learning_rate": 1.586e-05,
-    "num_tokens": 145393.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.209,
+    "loss": 0.0515,
+    "grad_norm": 1.3590887784957886,
+    "learning_rate": 1.5850000000000002e-05,
+    "num_tokens": 281945.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.418,
     "step": 418
   },
   {
-    "loss": 0.1736,
-    "grad_norm": 2.7632133960723877,
-    "learning_rate": 1.5850000000000002e-05,
-    "num_tokens": 145905.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.2095,
+    "loss": 0.0163,
+    "grad_norm": 2.414504051208496,
+    "learning_rate": 1.584e-05,
+    "num_tokens": 282127.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.419,
     "step": 419
   },
   {
-    "loss": 0.0056,
-    "grad_norm": 0.5383828282356262,
-    "learning_rate": 1.584e-05,
-    "num_tokens": 145996.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.21,
+    "loss": 0.1156,
+    "grad_norm": 1.1143982410430908,
+    "learning_rate": 1.5830000000000003e-05,
+    "num_tokens": 283151.0,
+    "mean_token_accuracy": 0.965753436088562,
+    "epoch": 0.42,
     "step": 420
   },
   {
-    "loss": 0.0053,
-    "grad_norm": 0.5213011503219604,
-    "learning_rate": 1.5830000000000003e-05,
-    "num_tokens": 146087.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2105,
+    "loss": 0.047,
+    "grad_norm": 0.7985422015190125,
+    "learning_rate": 1.582e-05,
+    "num_tokens": 283754.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.421,
     "step": 421
   },
   {
-    "loss": 0.1293,
-    "grad_norm": 1.3833296298980713,
-    "learning_rate": 1.582e-05,
-    "num_tokens": 146599.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.211,
+    "loss": 0.0174,
+    "grad_norm": 2.6907079219818115,
+    "learning_rate": 1.581e-05,
+    "num_tokens": 283936.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.422,
     "step": 422
   },
   {
-    "loss": 0.0047,
-    "grad_norm": 0.35407668352127075,
-    "learning_rate": 1.581e-05,
-    "num_tokens": 146690.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2115,
+    "loss": 0.0756,
+    "grad_norm": 1.169379711151123,
+    "learning_rate": 1.58e-05,
+    "num_tokens": 284539.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.423,
     "step": 423
   },
   {
-    "loss": 0.1152,
-    "grad_norm": 1.2960784435272217,
-    "learning_rate": 1.58e-05,
-    "num_tokens": 147202.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.212,
+    "loss": 0.2354,
+    "grad_norm": 3.1526973247528076,
+    "learning_rate": 1.579e-05,
+    "num_tokens": 285563.0,
+    "mean_token_accuracy": 0.9452054500579834,
+    "epoch": 0.424,
     "step": 424
   },
   {
-    "loss": 0.0701,
-    "grad_norm": 1.1170578002929688,
-    "learning_rate": 1.579e-05,
-    "num_tokens": 147714.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.2125,
+    "loss": 0.0458,
+    "grad_norm": 0.7426862120628357,
+    "learning_rate": 1.578e-05,
+    "num_tokens": 286166.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.425,
     "step": 425
   },
   {
-    "loss": 0.1111,
-    "grad_norm": 1.0579668283462524,
-    "learning_rate": 1.578e-05,
-    "num_tokens": 148226.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.213,
+    "loss": 0.0511,
+    "grad_norm": 0.8618159294128418,
+    "learning_rate": 1.577e-05,
+    "num_tokens": 286769.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.426,
     "step": 426
   },
   {
-    "loss": 0.0048,
-    "grad_norm": 0.4491373300552368,
-    "learning_rate": 1.577e-05,
-    "num_tokens": 148317.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2135,
+    "loss": 0.0657,
+    "grad_norm": 0.9042669534683228,
+    "learning_rate": 1.576e-05,
+    "num_tokens": 287793.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.427,
     "step": 427
   },
   {
-    "loss": 0.0052,
-    "grad_norm": 0.5798842906951904,
-    "learning_rate": 1.576e-05,
-    "num_tokens": 148408.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.214,
+    "loss": 0.1362,
+    "grad_norm": 1.7490906715393066,
+    "learning_rate": 1.575e-05,
+    "num_tokens": 288396.0,
+    "mean_token_accuracy": 0.960066556930542,
+    "epoch": 0.428,
     "step": 428
   },
   {
-    "loss": 0.0053,
-    "grad_norm": 0.6644476056098938,
-    "learning_rate": 1.575e-05,
-    "num_tokens": 148499.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2145,
+    "loss": 0.075,
+    "grad_norm": 1.2254105806350708,
+    "learning_rate": 1.5740000000000002e-05,
+    "num_tokens": 289420.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.429,
     "step": 429
   },
   {
-    "loss": 0.1002,
-    "grad_norm": 1.4146150350570679,
-    "learning_rate": 1.5740000000000002e-05,
-    "num_tokens": 149011.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.215,
+    "loss": 0.0161,
+    "grad_norm": 2.119595527648926,
+    "learning_rate": 1.573e-05,
+    "num_tokens": 289602.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.43,
     "step": 430
   },
   {
-    "loss": 0.0049,
-    "grad_norm": 0.5174235701560974,
-    "learning_rate": 1.573e-05,
-    "num_tokens": 149102.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2155,
+    "loss": 0.0577,
+    "grad_norm": 0.7894997596740723,
+    "learning_rate": 1.5720000000000002e-05,
+    "num_tokens": 290205.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.431,
     "step": 431
   },
   {
-    "loss": 0.1005,
-    "grad_norm": 1.295534610748291,
-    "learning_rate": 1.5720000000000002e-05,
-    "num_tokens": 149614.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.216,
+    "loss": 0.1096,
+    "grad_norm": 1.0284491777420044,
+    "learning_rate": 1.571e-05,
+    "num_tokens": 291229.0,
+    "mean_token_accuracy": 0.9608610272407532,
+    "epoch": 0.432,
     "step": 432
   },
   {
-    "loss": 0.0997,
-    "grad_norm": 1.874627947807312,
-    "learning_rate": 1.571e-05,
-    "num_tokens": 150126.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.2165,
+    "loss": 0.0674,
+    "grad_norm": 0.9232416152954102,
+    "learning_rate": 1.5700000000000002e-05,
+    "num_tokens": 292253.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.433,
     "step": 433
   },
   {
-    "loss": 0.0048,
-    "grad_norm": 0.477443128824234,
-    "learning_rate": 1.5700000000000002e-05,
-    "num_tokens": 150217.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.217,
+    "loss": 0.0671,
+    "grad_norm": 1.093686819076538,
+    "learning_rate": 1.569e-05,
+    "num_tokens": 292856.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.434,
     "step": 434
   },
   {
-    "loss": 0.0048,
-    "grad_norm": 0.5091577172279358,
-    "learning_rate": 1.569e-05,
-    "num_tokens": 150308.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2175,
+    "loss": 0.0768,
+    "grad_norm": 0.8534543514251709,
+    "learning_rate": 1.5680000000000002e-05,
+    "num_tokens": 293880.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.435,
     "step": 435
   },
   {
-    "loss": 0.0045,
-    "grad_norm": 0.42573752999305725,
-    "learning_rate": 1.5680000000000002e-05,
-    "num_tokens": 150399.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.218,
+    "loss": 0.0882,
+    "grad_norm": 1.4358211755752563,
+    "learning_rate": 1.567e-05,
+    "num_tokens": 294483.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.436,
     "step": 436
   },
   {
-    "loss": 0.1289,
-    "grad_norm": 1.2042423486709595,
-    "learning_rate": 1.567e-05,
-    "num_tokens": 150911.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.2185,
+    "loss": 0.0488,
+    "grad_norm": 1.3807297945022583,
+    "learning_rate": 1.5660000000000003e-05,
+    "num_tokens": 295086.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.437,
     "step": 437
   },
   {
-    "loss": 0.0741,
-    "grad_norm": 1.1629348993301392,
-    "learning_rate": 1.5660000000000003e-05,
-    "num_tokens": 151423.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.219,
+    "loss": 0.0822,
+    "grad_norm": 1.7636574506759644,
+    "learning_rate": 1.565e-05,
+    "num_tokens": 296110.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.438,
     "step": 438
   },
   {
-    "loss": 0.004,
-    "grad_norm": 0.3303038775920868,
-    "learning_rate": 1.565e-05,
-    "num_tokens": 151514.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2195,
+    "loss": 0.0943,
+    "grad_norm": 1.1918975114822388,
+    "learning_rate": 1.5640000000000003e-05,
+    "num_tokens": 297134.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.439,
     "step": 439
   },
   {
-    "loss": 0.0039,
-    "grad_norm": 0.279052734375,
-    "learning_rate": 1.5640000000000003e-05,
-    "num_tokens": 151605.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.22,
+    "loss": 0.049,
+    "grad_norm": 1.1358352899551392,
+    "learning_rate": 1.563e-05,
+    "num_tokens": 297737.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.44,
     "step": 440
   },
   {
-    "loss": 0.1122,
-    "grad_norm": 1.5259605646133423,
-    "learning_rate": 1.563e-05,
-    "num_tokens": 152117.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.2205,
+    "loss": 0.0829,
+    "grad_norm": 0.8242742419242859,
+    "learning_rate": 1.5620000000000003e-05,
+    "num_tokens": 298761.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 0.441,
     "step": 441
   },
   {
-    "loss": 0.1174,
-    "grad_norm": 1.2986260652542114,
-    "learning_rate": 1.5620000000000003e-05,
-    "num_tokens": 152629.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.221,
+    "loss": 0.0734,
+    "grad_norm": 1.4186701774597168,
+    "learning_rate": 1.561e-05,
+    "num_tokens": 299364.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.442,
     "step": 442
   },
   {
-    "loss": 0.0041,
-    "grad_norm": 0.4193200170993805,
-    "learning_rate": 1.561e-05,
-    "num_tokens": 152720.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2215,
+    "loss": 0.0395,
+    "grad_norm": 0.9597113132476807,
+    "learning_rate": 1.5600000000000003e-05,
+    "num_tokens": 299967.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.443,
     "step": 443
   },
   {
-    "loss": 0.1207,
-    "grad_norm": 1.2413984537124634,
-    "learning_rate": 1.5600000000000003e-05,
-    "num_tokens": 153232.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.222,
+    "loss": 0.0744,
+    "grad_norm": 1.404382348060608,
+    "learning_rate": 1.559e-05,
+    "num_tokens": 300570.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.444,
     "step": 444
   },
   {
-    "loss": 0.0045,
-    "grad_norm": 0.6368035078048706,
-    "learning_rate": 1.559e-05,
-    "num_tokens": 153323.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2225,
+    "loss": 0.0473,
+    "grad_norm": 0.8925930857658386,
+    "learning_rate": 1.5580000000000003e-05,
+    "num_tokens": 301594.0,
+    "mean_token_accuracy": 0.985322892665863,
+    "epoch": 0.445,
     "step": 445
   },
   {
-    "loss": 0.101,
-    "grad_norm": 1.2425626516342163,
-    "learning_rate": 1.5580000000000003e-05,
-    "num_tokens": 153835.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.223,
+    "loss": 0.071,
+    "grad_norm": 1.262951135635376,
+    "learning_rate": 1.5570000000000002e-05,
+    "num_tokens": 302197.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.446,
     "step": 446
   },
   {
-    "loss": 0.1124,
-    "grad_norm": 1.019707202911377,
-    "learning_rate": 1.5570000000000002e-05,
-    "num_tokens": 154347.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.2235,
+    "loss": 0.0526,
+    "grad_norm": 1.162405252456665,
+    "learning_rate": 1.556e-05,
+    "num_tokens": 302800.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.447,
     "step": 447
   },
   {
-    "loss": 0.0051,
-    "grad_norm": 0.8345929384231567,
-    "learning_rate": 1.556e-05,
-    "num_tokens": 154438.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.224,
+    "loss": 0.2271,
+    "grad_norm": 2.828556537628174,
+    "learning_rate": 1.5550000000000002e-05,
+    "num_tokens": 303824.0,
+    "mean_token_accuracy": 0.9471624493598938,
+    "epoch": 0.448,
     "step": 448
   },
   {
-    "loss": 0.0052,
-    "grad_norm": 0.8587450385093689,
-    "learning_rate": 1.5550000000000002e-05,
-    "num_tokens": 154529.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2245,
+    "loss": 0.1001,
+    "grad_norm": 1.7923780679702759,
+    "learning_rate": 1.554e-05,
+    "num_tokens": 304427.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 0.449,
     "step": 449
   },
   {
-    "loss": 0.1214,
-    "grad_norm": 1.1086853742599487,
-    "learning_rate": 1.554e-05,
-    "num_tokens": 155041.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.225,
+    "loss": 0.0787,
+    "grad_norm": 1.3813443183898926,
+    "learning_rate": 1.5530000000000002e-05,
+    "num_tokens": 305451.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 0.45,
     "step": 450
   },
   {
-    "loss": 0.1164,
-    "grad_norm": 1.238479495048523,
-    "learning_rate": 1.5530000000000002e-05,
-    "num_tokens": 155553.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.2255,
+    "loss": 0.0172,
+    "grad_norm": 2.7238848209381104,
+    "learning_rate": 1.552e-05,
+    "num_tokens": 305633.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.451,
     "step": 451
   },
   {
-    "loss": 0.1249,
-    "grad_norm": 1.3684537410736084,
-    "learning_rate": 1.552e-05,
-    "num_tokens": 156065.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.226,
+    "loss": 0.0643,
+    "grad_norm": 1.0591074228286743,
+    "learning_rate": 1.5510000000000002e-05,
+    "num_tokens": 306236.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.452,
     "step": 452
   },
   {
-    "loss": 0.0054,
-    "grad_norm": 0.947119951248169,
-    "learning_rate": 1.5510000000000002e-05,
-    "num_tokens": 156156.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2265,
+    "loss": 0.0674,
+    "grad_norm": 0.9203467965126038,
+    "learning_rate": 1.55e-05,
+    "num_tokens": 306839.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.453,
     "step": 453
   },
   {
-    "loss": 0.0056,
-    "grad_norm": 0.9146615266799927,
-    "learning_rate": 1.55e-05,
-    "num_tokens": 156247.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.227,
+    "loss": 0.0729,
+    "grad_norm": 1.240227222442627,
+    "learning_rate": 1.549e-05,
+    "num_tokens": 307863.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.454,
     "step": 454
   },
   {
-    "loss": 0.0782,
-    "grad_norm": 1.2344416379928589,
-    "learning_rate": 1.549e-05,
-    "num_tokens": 156759.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.2275,
+    "loss": 0.0597,
+    "grad_norm": 1.1434822082519531,
+    "learning_rate": 1.548e-05,
+    "num_tokens": 308466.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.455,
     "step": 455
   },
   {
-    "loss": 0.4506,
-    "grad_norm": 7.777007579803467,
-    "learning_rate": 1.548e-05,
-    "num_tokens": 157271.0,
-    "mean_token_accuracy": 0.9138942956924438,
-    "epoch": 0.228,
+    "loss": 0.0665,
+    "grad_norm": 0.814992368221283,
+    "learning_rate": 1.547e-05,
+    "num_tokens": 309069.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.456,
     "step": 456
   },
   {
-    "loss": 0.0639,
-    "grad_norm": 1.501968264579773,
-    "learning_rate": 1.547e-05,
-    "num_tokens": 157783.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.2285,
+    "loss": 0.0658,
+    "grad_norm": 1.0612773895263672,
+    "learning_rate": 1.546e-05,
+    "num_tokens": 310093.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 0.457,
     "step": 457
   },
   {
-    "loss": 0.0046,
-    "grad_norm": 0.6376725435256958,
-    "learning_rate": 1.546e-05,
-    "num_tokens": 157874.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.229,
+    "loss": 0.0662,
+    "grad_norm": 0.9019358158111572,
+    "learning_rate": 1.545e-05,
+    "num_tokens": 311117.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.458,
     "step": 458
   },
   {
-    "loss": 0.0043,
-    "grad_norm": 0.5955199003219604,
-    "learning_rate": 1.545e-05,
-    "num_tokens": 157965.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2295,
+    "loss": 0.1038,
+    "grad_norm": 1.3925731182098389,
+    "learning_rate": 1.544e-05,
+    "num_tokens": 312141.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 0.459,
     "step": 459
   },
   {
-    "loss": 0.1027,
-    "grad_norm": 1.514914631843567,
-    "learning_rate": 1.544e-05,
-    "num_tokens": 158477.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.23,
+    "loss": 0.06,
+    "grad_norm": 0.8808843493461609,
+    "learning_rate": 1.543e-05,
+    "num_tokens": 312744.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.46,
     "step": 460
   },
   {
-    "loss": 0.1145,
-    "grad_norm": 1.1080951690673828,
-    "learning_rate": 1.543e-05,
-    "num_tokens": 158989.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.2305,
+    "loss": 0.0632,
+    "grad_norm": 0.8605257868766785,
+    "learning_rate": 1.542e-05,
+    "num_tokens": 313768.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 0.461,
     "step": 461
   },
   {
-    "loss": 0.1661,
-    "grad_norm": 2.103287696838379,
-    "learning_rate": 1.542e-05,
-    "num_tokens": 159501.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.231,
+    "loss": 0.0164,
+    "grad_norm": 3.112032890319824,
+    "learning_rate": 1.541e-05,
+    "num_tokens": 313950.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.462,
     "step": 462
   },
   {
-    "loss": 0.0041,
-    "grad_norm": 0.5920866131782532,
-    "learning_rate": 1.541e-05,
-    "num_tokens": 159592.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2315,
+    "loss": 0.0431,
+    "grad_norm": 0.8734879493713379,
+    "learning_rate": 1.54e-05,
+    "num_tokens": 314553.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.463,
     "step": 463
   },
   {
-    "loss": 0.0831,
-    "grad_norm": 1.2727563381195068,
-    "learning_rate": 1.54e-05,
-    "num_tokens": 160104.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.232,
+    "loss": 0.0443,
+    "grad_norm": 0.8178501129150391,
+    "learning_rate": 1.539e-05,
+    "num_tokens": 315156.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.464,
     "step": 464
   },
   {
-    "loss": 0.076,
-    "grad_norm": 1.3624043464660645,
-    "learning_rate": 1.539e-05,
-    "num_tokens": 160616.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.2325,
+    "loss": 0.0155,
+    "grad_norm": 2.3297200202941895,
+    "learning_rate": 1.5380000000000002e-05,
+    "num_tokens": 315338.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.465,
     "step": 465
   },
   {
-    "loss": 0.0051,
-    "grad_norm": 1.0213030576705933,
-    "learning_rate": 1.5380000000000002e-05,
-    "num_tokens": 160707.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.233,
+    "loss": 0.0567,
+    "grad_norm": 1.0183790922164917,
+    "learning_rate": 1.537e-05,
+    "num_tokens": 316362.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.466,
     "step": 466
   },
   {
-    "loss": 0.0053,
-    "grad_norm": 1.1751487255096436,
-    "learning_rate": 1.537e-05,
-    "num_tokens": 160798.0,
+    "loss": 0.0133,
+    "grad_norm": 2.1442461013793945,
+    "learning_rate": 1.5360000000000002e-05,
+    "num_tokens": 316544.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.2335,
+    "epoch": 0.467,
     "step": 467
   },
   {
-    "loss": 0.1073,
-    "grad_norm": 1.1450884342193604,
-    "learning_rate": 1.5360000000000002e-05,
-    "num_tokens": 161310.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.234,
+    "loss": 0.0718,
+    "grad_norm": 1.11445951461792,
+    "learning_rate": 1.535e-05,
+    "num_tokens": 317568.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.468,
     "step": 468
   },
   {
-    "loss": 0.1152,
-    "grad_norm": 1.0188744068145752,
-    "learning_rate": 1.535e-05,
-    "num_tokens": 161822.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.2345,
+    "loss": 0.1012,
+    "grad_norm": 1.5906054973602295,
+    "learning_rate": 1.5340000000000002e-05,
+    "num_tokens": 318592.0,
+    "mean_token_accuracy": 0.965753436088562,
+    "epoch": 0.469,
     "step": 469
   },
   {
-    "loss": 0.0042,
-    "grad_norm": 0.6943671703338623,
-    "learning_rate": 1.5340000000000002e-05,
-    "num_tokens": 161913.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.235,
+    "loss": 0.0745,
+    "grad_norm": 1.652694582939148,
+    "learning_rate": 1.533e-05,
+    "num_tokens": 319195.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.47,
     "step": 470
   },
   {
-    "loss": 0.0041,
-    "grad_norm": 0.5702145099639893,
-    "learning_rate": 1.533e-05,
-    "num_tokens": 162004.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2355,
+    "loss": 0.0903,
+    "grad_norm": 1.35775625705719,
+    "learning_rate": 1.5320000000000002e-05,
+    "num_tokens": 320219.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 0.471,
     "step": 471
   },
   {
-    "loss": 0.1601,
-    "grad_norm": 2.467028856277466,
-    "learning_rate": 1.5320000000000002e-05,
-    "num_tokens": 162516.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.236,
+    "loss": 0.099,
+    "grad_norm": 1.7678292989730835,
+    "learning_rate": 1.531e-05,
+    "num_tokens": 320822.0,
+    "mean_token_accuracy": 0.9667221307754517,
+    "epoch": 0.472,
     "step": 472
   },
   {
-    "loss": 0.0036,
-    "grad_norm": 0.3947738707065582,
-    "learning_rate": 1.531e-05,
-    "num_tokens": 162607.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2365,
+    "loss": 0.0623,
+    "grad_norm": 0.8131306171417236,
+    "learning_rate": 1.5300000000000003e-05,
+    "num_tokens": 321425.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.473,
     "step": 473
   },
   {
-    "loss": 0.0035,
-    "grad_norm": 0.3578404486179352,
-    "learning_rate": 1.5300000000000003e-05,
-    "num_tokens": 162698.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.237,
+    "loss": 0.1034,
+    "grad_norm": 1.3832954168319702,
+    "learning_rate": 1.529e-05,
+    "num_tokens": 322449.0,
+    "mean_token_accuracy": 0.9628180265426636,
+    "epoch": 0.474,
     "step": 474
   },
   {
-    "loss": 0.1018,
-    "grad_norm": 1.5206029415130615,
-    "learning_rate": 1.529e-05,
-    "num_tokens": 163210.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.2375,
+    "loss": 0.0643,
+    "grad_norm": 1.0007091760635376,
+    "learning_rate": 1.5280000000000003e-05,
+    "num_tokens": 323052.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.475,
     "step": 475
   },
   {
-    "loss": 0.0753,
-    "grad_norm": 1.400350570678711,
-    "learning_rate": 1.5280000000000003e-05,
-    "num_tokens": 163722.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.238,
+    "loss": 0.0874,
+    "grad_norm": 1.3062710762023926,
+    "learning_rate": 1.527e-05,
+    "num_tokens": 324076.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 0.476,
     "step": 476
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.33458250761032104,
-    "learning_rate": 1.527e-05,
-    "num_tokens": 163813.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2385,
+    "loss": 0.0645,
+    "grad_norm": 1.046617865562439,
+    "learning_rate": 1.5260000000000003e-05,
+    "num_tokens": 324679.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.477,
     "step": 477
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.2822412848472595,
-    "learning_rate": 1.5260000000000003e-05,
-    "num_tokens": 163904.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.239,
+    "loss": 0.1331,
+    "grad_norm": 1.6525492668151855,
+    "learning_rate": 1.525e-05,
+    "num_tokens": 325703.0,
+    "mean_token_accuracy": 0.9628180265426636,
+    "epoch": 0.478,
     "step": 478
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.24599352478981018,
-    "learning_rate": 1.525e-05,
-    "num_tokens": 163995.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2395,
+    "loss": 0.0633,
+    "grad_norm": 1.07027006149292,
+    "learning_rate": 1.5240000000000001e-05,
+    "num_tokens": 326306.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.479,
     "step": 479
   },
   {
-    "loss": 0.0772,
-    "grad_norm": 1.2155442237854004,
-    "learning_rate": 1.5240000000000001e-05,
-    "num_tokens": 164507.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.24,
+    "loss": 0.0543,
+    "grad_norm": 1.253555417060852,
+    "learning_rate": 1.523e-05,
+    "num_tokens": 326909.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.48,
     "step": 480
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.2298114001750946,
-    "learning_rate": 1.523e-05,
-    "num_tokens": 164598.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2405,
+    "loss": 0.0689,
+    "grad_norm": 1.0007350444793701,
+    "learning_rate": 1.5220000000000002e-05,
+    "num_tokens": 327512.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.481,
     "step": 481
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.23676389455795288,
-    "learning_rate": 1.5220000000000002e-05,
-    "num_tokens": 164689.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.241,
+    "loss": 0.0201,
+    "grad_norm": 3.1733195781707764,
+    "learning_rate": 1.521e-05,
+    "num_tokens": 327694.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.482,
     "step": 482
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.21022361516952515,
-    "learning_rate": 1.521e-05,
-    "num_tokens": 164780.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2415,
+    "loss": 0.0683,
+    "grad_norm": 1.078524112701416,
+    "learning_rate": 1.5200000000000002e-05,
+    "num_tokens": 328718.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.483,
     "step": 483
   },
   {
-    "loss": 0.1104,
-    "grad_norm": 1.7568659782409668,
-    "learning_rate": 1.5200000000000002e-05,
-    "num_tokens": 165292.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.242,
+    "loss": 0.0444,
+    "grad_norm": 0.8199536800384521,
+    "learning_rate": 1.519e-05,
+    "num_tokens": 329321.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.484,
     "step": 484
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.28411486744880676,
-    "learning_rate": 1.519e-05,
-    "num_tokens": 165383.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2425,
+    "loss": 0.0629,
+    "grad_norm": 1.2054758071899414,
+    "learning_rate": 1.5180000000000002e-05,
+    "num_tokens": 329924.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.485,
     "step": 485
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.2967180907726288,
-    "learning_rate": 1.5180000000000002e-05,
-    "num_tokens": 165474.0,
+    "loss": 0.0119,
+    "grad_norm": 1.753531575202942,
+    "learning_rate": 1.517e-05,
+    "num_tokens": 330106.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.243,
+    "epoch": 0.486,
     "step": 486
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.31251031160354614,
-    "learning_rate": 1.517e-05,
-    "num_tokens": 165565.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2435,
+    "loss": 0.0844,
+    "grad_norm": 1.1255303621292114,
+    "learning_rate": 1.516e-05,
+    "num_tokens": 331130.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 0.487,
     "step": 487
   },
   {
-    "loss": 0.0629,
-    "grad_norm": 1.4641610383987427,
-    "learning_rate": 1.516e-05,
-    "num_tokens": 166077.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.244,
+    "loss": 0.0856,
+    "grad_norm": 1.283798098564148,
+    "learning_rate": 1.515e-05,
+    "num_tokens": 332154.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 0.488,
     "step": 488
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.22654157876968384,
-    "learning_rate": 1.515e-05,
-    "num_tokens": 166168.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2445,
+    "loss": 0.0631,
+    "grad_norm": 1.0470834970474243,
+    "learning_rate": 1.514e-05,
+    "num_tokens": 332757.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.489,
     "step": 489
   },
   {
-    "loss": 0.063,
-    "grad_norm": 1.187050223350525,
-    "learning_rate": 1.514e-05,
-    "num_tokens": 166680.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.245,
+    "loss": 0.0088,
+    "grad_norm": 1.2209492921829224,
+    "learning_rate": 1.513e-05,
+    "num_tokens": 332939.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.49,
     "step": 490
   },
   {
-    "loss": 0.0565,
-    "grad_norm": 1.331944227218628,
-    "learning_rate": 1.513e-05,
-    "num_tokens": 167192.0,
-    "mean_token_accuracy": 0.9882583022117615,
-    "epoch": 0.2455,
+    "loss": 0.0523,
+    "grad_norm": 1.4202543497085571,
+    "learning_rate": 1.5120000000000001e-05,
+    "num_tokens": 333542.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.491,
     "step": 491
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.37733522057533264,
-    "learning_rate": 1.5120000000000001e-05,
-    "num_tokens": 167283.0,
+    "loss": 0.0075,
+    "grad_norm": 0.800220787525177,
+    "learning_rate": 1.5110000000000001e-05,
+    "num_tokens": 333724.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.246,
+    "epoch": 0.492,
     "step": 492
   },
   {
-    "loss": 0.0989,
-    "grad_norm": 1.4206980466842651,
-    "learning_rate": 1.5110000000000001e-05,
-    "num_tokens": 167795.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.2465,
+    "loss": 0.0701,
+    "grad_norm": 2.3125245571136475,
+    "learning_rate": 1.5100000000000001e-05,
+    "num_tokens": 334327.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.493,
     "step": 493
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.3664330244064331,
-    "learning_rate": 1.5100000000000001e-05,
-    "num_tokens": 167886.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.247,
+    "loss": 0.0641,
+    "grad_norm": 1.2975730895996094,
+    "learning_rate": 1.509e-05,
+    "num_tokens": 334930.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.494,
     "step": 494
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.5825914740562439,
-    "learning_rate": 1.509e-05,
-    "num_tokens": 167977.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2475,
+    "loss": 0.1182,
+    "grad_norm": 1.777302622795105,
+    "learning_rate": 1.5080000000000001e-05,
+    "num_tokens": 335533.0,
+    "mean_token_accuracy": 0.9633943438529968,
+    "epoch": 0.495,
     "step": 495
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.47541120648384094,
-    "learning_rate": 1.5080000000000001e-05,
-    "num_tokens": 168068.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.248,
+    "loss": 0.0997,
+    "grad_norm": 1.2831844091415405,
+    "learning_rate": 1.507e-05,
+    "num_tokens": 336557.0,
+    "mean_token_accuracy": 0.9647749662399292,
+    "epoch": 0.496,
     "step": 496
   },
   {
-    "loss": 0.1152,
-    "grad_norm": 1.194077730178833,
-    "learning_rate": 1.507e-05,
-    "num_tokens": 168580.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.2485,
+    "loss": 0.009,
+    "grad_norm": 2.3041038513183594,
+    "learning_rate": 1.5060000000000001e-05,
+    "num_tokens": 336739.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.497,
     "step": 497
   },
   {
-    "loss": 0.0642,
-    "grad_norm": 1.5998581647872925,
-    "learning_rate": 1.5060000000000001e-05,
-    "num_tokens": 169092.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.249,
+    "loss": 0.1022,
+    "grad_norm": 2.2915868759155273,
+    "learning_rate": 1.505e-05,
+    "num_tokens": 337342.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.498,
     "step": 498
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.45395979285240173,
-    "learning_rate": 1.505e-05,
-    "num_tokens": 169183.0,
+    "loss": 0.0091,
+    "grad_norm": 2.4227917194366455,
+    "learning_rate": 1.5040000000000002e-05,
+    "num_tokens": 337524.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.2495,
+    "epoch": 0.499,
     "step": 499
   },
   {
-    "loss": 0.066,
-    "grad_norm": 1.4924191236495972,
-    "learning_rate": 1.5040000000000002e-05,
-    "num_tokens": 169695.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.25,
-    "step": 500
-  },
-  {
-    "loss": 0.0642,
-    "grad_norm": 1.4406323432922363,
+    "loss": 0.0741,
+    "grad_norm": 1.2912752628326416,
     "learning_rate": 1.503e-05,
-    "num_tokens": 170207.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.2505,
-    "step": 501
+    "num_tokens": 338548.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 0.5,
+    "step": 500
   },
   {
-    "loss": 0.004,
-    "grad_norm": 0.7274853587150574,
+    "loss": 0.0789,
+    "grad_norm": 1.418357491493225,
     "learning_rate": 1.5020000000000002e-05,
-    "num_tokens": 170298.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.251,
-    "step": 502
+    "num_tokens": 339572.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 0.501,
+    "step": 501
   },
   {
-    "loss": 0.0637,
-    "grad_norm": 1.4921272993087769,
+    "loss": 0.0437,
+    "grad_norm": 1.0824663639068604,
     "learning_rate": 1.501e-05,
-    "num_tokens": 170810.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.2515,
-    "step": 503
+    "num_tokens": 340175.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.502,
+    "step": 502
   },
   {
-    "loss": 0.0881,
-    "grad_norm": 1.3289899826049805,
+    "loss": 0.0091,
+    "grad_norm": 2.0608322620391846,
     "learning_rate": 1.5000000000000002e-05,
-    "num_tokens": 171322.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.252,
-    "step": 504
+    "num_tokens": 340357.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.503,
+    "step": 503
   },
   {
-    "loss": 0.0046,
-    "grad_norm": 0.9299827814102173,
+    "loss": 0.008,
+    "grad_norm": 1.446424126625061,
     "learning_rate": 1.4990000000000002e-05,
-    "num_tokens": 171413.0,
+    "num_tokens": 340539.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.2525,
-    "step": 505
+    "epoch": 0.504,
+    "step": 504
   },
   {
-    "loss": 0.0917,
-    "grad_norm": 1.0895007848739624,
+    "loss": 0.0639,
+    "grad_norm": 1.2623666524887085,
     "learning_rate": 1.498e-05,
-    "num_tokens": 171925.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.253,
-    "step": 506
+    "num_tokens": 341142.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.505,
+    "step": 505
   },
   {
-    "loss": 0.0055,
-    "grad_norm": 1.2428455352783203,
+    "loss": 0.06,
+    "grad_norm": 0.982926607131958,
     "learning_rate": 1.4970000000000002e-05,
-    "num_tokens": 172016.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2535,
-    "step": 507
+    "num_tokens": 342166.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 0.506,
+    "step": 506
   },
   {
-    "loss": 0.0904,
-    "grad_norm": 1.1731876134872437,
+    "loss": 0.0553,
+    "grad_norm": 1.1177573204040527,
     "learning_rate": 1.496e-05,
-    "num_tokens": 172528.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.254,
-    "step": 508
+    "num_tokens": 342769.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.507,
+    "step": 507
   },
   {
-    "loss": 0.0042,
-    "grad_norm": 0.8642317652702332,
+    "loss": 0.0573,
+    "grad_norm": 1.266147494316101,
     "learning_rate": 1.4950000000000003e-05,
-    "num_tokens": 172619.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2545,
-    "step": 509
+    "num_tokens": 343372.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.508,
+    "step": 508
   },
   {
-    "loss": 0.0042,
-    "grad_norm": 0.9150028228759766,
+    "loss": 0.0632,
+    "grad_norm": 1.0854604244232178,
     "learning_rate": 1.4940000000000001e-05,
-    "num_tokens": 172710.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.255,
-    "step": 510
+    "num_tokens": 343975.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.509,
+    "step": 509
   },
   {
-    "loss": 0.1244,
-    "grad_norm": 1.520849585533142,
+    "loss": 0.0569,
+    "grad_norm": 1.2042014598846436,
     "learning_rate": 1.4930000000000003e-05,
-    "num_tokens": 173222.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.2555,
-    "step": 511
+    "num_tokens": 344578.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.51,
+    "step": 510
   },
   {
-    "loss": 0.0667,
-    "grad_norm": 1.3897782564163208,
+    "loss": 0.0755,
+    "grad_norm": 1.318413496017456,
     "learning_rate": 1.4920000000000001e-05,
-    "num_tokens": 173734.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.256,
-    "step": 512
+    "num_tokens": 345602.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 0.511,
+    "step": 511
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.4630263149738312,
+    "loss": 0.096,
+    "grad_norm": 2.037118434906006,
     "learning_rate": 1.4910000000000003e-05,
-    "num_tokens": 173825.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2565,
-    "step": 513
+    "num_tokens": 346205.0,
+    "mean_token_accuracy": 0.9667221307754517,
+    "epoch": 0.512,
+    "step": 512
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.32279714941978455,
+    "loss": 0.0692,
+    "grad_norm": 1.2327139377593994,
     "learning_rate": 1.4900000000000001e-05,
-    "num_tokens": 173916.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.257,
-    "step": 514
+    "num_tokens": 347229.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.513,
+    "step": 513
   },
   {
-    "loss": 0.1723,
-    "grad_norm": 2.5587806701660156,
+    "loss": 0.0597,
+    "grad_norm": 1.2249183654785156,
     "learning_rate": 1.4890000000000001e-05,
-    "num_tokens": 174428.0,
-    "mean_token_accuracy": 0.9471624493598938,
-    "epoch": 0.2575,
-    "step": 515
+    "num_tokens": 347832.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.514,
+    "step": 514
   },
   {
-    "loss": 0.084,
-    "grad_norm": 1.5307081937789917,
+    "loss": 0.0215,
+    "grad_norm": 3.7084152698516846,
     "learning_rate": 1.4880000000000002e-05,
-    "num_tokens": 174940.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.258,
-    "step": 516
+    "num_tokens": 348014.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.515,
+    "step": 515
   },
   {
-    "loss": 0.0455,
-    "grad_norm": 1.2075250148773193,
+    "loss": 0.0226,
+    "grad_norm": 3.6710031032562256,
     "learning_rate": 1.4870000000000002e-05,
-    "num_tokens": 175452.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.2585,
-    "step": 517
+    "num_tokens": 348196.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.516,
+    "step": 516
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.3137587904930115,
+    "loss": 0.0447,
+    "grad_norm": 1.1309056282043457,
     "learning_rate": 1.4860000000000002e-05,
-    "num_tokens": 175543.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.259,
-    "step": 518
+    "num_tokens": 348799.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.517,
+    "step": 517
   },
   {
-    "loss": 0.1133,
-    "grad_norm": 1.3542101383209229,
+    "loss": 0.0675,
+    "grad_norm": 0.7269265651702881,
     "learning_rate": 1.4850000000000002e-05,
-    "num_tokens": 176055.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.2595,
-    "step": 519
+    "num_tokens": 349823.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.518,
+    "step": 518
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.3963753581047058,
+    "loss": 0.0681,
+    "grad_norm": 0.942974865436554,
     "learning_rate": 1.4840000000000002e-05,
-    "num_tokens": 176146.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.26,
-    "step": 520
+    "num_tokens": 350847.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.519,
+    "step": 519
   },
   {
-    "loss": 0.1022,
-    "grad_norm": 1.4186869859695435,
+    "loss": 0.0596,
+    "grad_norm": 1.1206049919128418,
     "learning_rate": 1.4830000000000002e-05,
-    "num_tokens": 176658.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.2605,
-    "step": 521
+    "num_tokens": 351450.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.52,
+    "step": 520
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.533608615398407,
+    "loss": 0.0626,
+    "grad_norm": 0.8903636336326599,
     "learning_rate": 1.482e-05,
-    "num_tokens": 176749.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.261,
-    "step": 522
+    "num_tokens": 352474.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.521,
+    "step": 521
   },
   {
-    "loss": 0.0842,
-    "grad_norm": 1.5056371688842773,
+    "loss": 0.0456,
+    "grad_norm": 1.0571587085723877,
     "learning_rate": 1.4810000000000002e-05,
-    "num_tokens": 177261.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.2615,
-    "step": 523
+    "num_tokens": 353077.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.522,
+    "step": 522
   },
   {
-    "loss": 0.0033,
-    "grad_norm": 0.6577285528182983,
+    "loss": 0.0579,
+    "grad_norm": 0.832482635974884,
     "learning_rate": 1.48e-05,
-    "num_tokens": 177352.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.262,
-    "step": 524
+    "num_tokens": 354101.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.523,
+    "step": 523
   },
   {
-    "loss": 0.1089,
-    "grad_norm": 1.4338765144348145,
+    "loss": 0.0552,
+    "grad_norm": 1.0173414945602417,
     "learning_rate": 1.4790000000000002e-05,
-    "num_tokens": 177864.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.2625,
-    "step": 525
+    "num_tokens": 355125.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.524,
+    "step": 524
   },
   {
-    "loss": 0.1055,
-    "grad_norm": 1.13351571559906,
+    "loss": 0.0765,
+    "grad_norm": 1.0486934185028076,
     "learning_rate": 1.478e-05,
-    "num_tokens": 178376.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.263,
-    "step": 526
+    "num_tokens": 356149.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.525,
+    "step": 525
   },
   {
-    "loss": 0.0951,
-    "grad_norm": 1.237243413925171,
+    "loss": 0.0554,
+    "grad_norm": 1.1522009372711182,
     "learning_rate": 1.4770000000000003e-05,
-    "num_tokens": 178888.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.2635,
-    "step": 527
+    "num_tokens": 356752.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.526,
+    "step": 526
   },
   {
-    "loss": 0.212,
-    "grad_norm": 3.4371607303619385,
+    "loss": 0.0435,
+    "grad_norm": 0.9237290024757385,
     "learning_rate": 1.4760000000000001e-05,
-    "num_tokens": 179400.0,
-    "mean_token_accuracy": 0.9530332684516907,
-    "epoch": 0.264,
-    "step": 528
+    "num_tokens": 357355.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.527,
+    "step": 527
   },
   {
-    "loss": 0.0058,
-    "grad_norm": 1.4969244003295898,
+    "loss": 0.0451,
+    "grad_norm": 0.900613009929657,
     "learning_rate": 1.4750000000000003e-05,
-    "num_tokens": 179491.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2645,
-    "step": 529
+    "num_tokens": 357958.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.528,
+    "step": 528
   },
   {
-    "loss": 0.0068,
-    "grad_norm": 1.7211462259292603,
+    "loss": 0.0694,
+    "grad_norm": 0.940955400466919,
     "learning_rate": 1.4740000000000001e-05,
-    "num_tokens": 179582.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.265,
-    "step": 530
+    "num_tokens": 358982.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 0.529,
+    "step": 529
   },
   {
-    "loss": 0.0986,
-    "grad_norm": 0.948099672794342,
+    "loss": 0.0191,
+    "grad_norm": 3.003450870513916,
     "learning_rate": 1.4730000000000001e-05,
-    "num_tokens": 180094.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.2655,
-    "step": 531
+    "num_tokens": 359164.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.53,
+    "step": 530
   },
   {
-    "loss": 0.0057,
-    "grad_norm": 1.391058325767517,
+    "loss": 0.043,
+    "grad_norm": 1.1651326417922974,
     "learning_rate": 1.4720000000000001e-05,
-    "num_tokens": 180185.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.266,
-    "step": 532
+    "num_tokens": 359767.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.531,
+    "step": 531
   },
   {
-    "loss": 0.0042,
-    "grad_norm": 0.9918210506439209,
+    "loss": 0.0637,
+    "grad_norm": 1.031686544418335,
     "learning_rate": 1.4710000000000001e-05,
-    "num_tokens": 180276.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2665,
-    "step": 533
+    "num_tokens": 360370.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.532,
+    "step": 532
   },
   {
-    "loss": 0.2042,
-    "grad_norm": 2.672642230987549,
+    "loss": 0.0661,
+    "grad_norm": 1.5867462158203125,
     "learning_rate": 1.4700000000000002e-05,
-    "num_tokens": 180788.0,
-    "mean_token_accuracy": 0.9491193890571594,
-    "epoch": 0.267,
-    "step": 534
+    "num_tokens": 360973.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.533,
+    "step": 533
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.45506858825683594,
+    "loss": 0.0123,
+    "grad_norm": 2.072788715362549,
     "learning_rate": 1.4690000000000002e-05,
-    "num_tokens": 180879.0,
+    "num_tokens": 361155.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.2675,
-    "step": 535
+    "epoch": 0.534,
+    "step": 534
   },
   {
-    "loss": 0.0797,
-    "grad_norm": 1.4114668369293213,
+    "loss": 0.073,
+    "grad_norm": 1.3591760396957397,
     "learning_rate": 1.4680000000000002e-05,
-    "num_tokens": 181391.0,
+    "num_tokens": 362179.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.535,
+    "step": 535
+  },
+  {
+    "loss": 0.0509,
+    "grad_norm": 1.1638456583023071,
+    "learning_rate": 1.4670000000000002e-05,
+    "num_tokens": 363203.0,
     "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.268,
+    "epoch": 0.536,
     "step": 536
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.5301483869552612,
-    "learning_rate": 1.4670000000000002e-05,
-    "num_tokens": 181482.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2685,
+    "loss": 0.0944,
+    "grad_norm": 1.6999235153198242,
+    "learning_rate": 1.466e-05,
+    "num_tokens": 364227.0,
+    "mean_token_accuracy": 0.9647749662399292,
+    "epoch": 0.537,
     "step": 537
   },
   {
-    "loss": 0.0668,
-    "grad_norm": 1.3311203718185425,
-    "learning_rate": 1.466e-05,
-    "num_tokens": 181994.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.269,
+    "loss": 0.0562,
+    "grad_norm": 1.4748142957687378,
+    "learning_rate": 1.4650000000000002e-05,
+    "num_tokens": 364830.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.538,
     "step": 538
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.2691483795642853,
-    "learning_rate": 1.4650000000000002e-05,
-    "num_tokens": 182085.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2695,
+    "loss": 0.124,
+    "grad_norm": 2.1115293502807617,
+    "learning_rate": 1.464e-05,
+    "num_tokens": 365854.0,
+    "mean_token_accuracy": 0.9598825573921204,
+    "epoch": 0.539,
     "step": 539
   },
   {
-    "loss": 0.1992,
-    "grad_norm": 1.9987740516662598,
-    "learning_rate": 1.464e-05,
-    "num_tokens": 182597.0,
-    "mean_token_accuracy": 0.9471624493598938,
-    "epoch": 0.27,
+    "loss": 0.0477,
+    "grad_norm": 1.6090505123138428,
+    "learning_rate": 1.4630000000000002e-05,
+    "num_tokens": 366457.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.54,
     "step": 540
   },
   {
-    "loss": 0.1435,
-    "grad_norm": 2.9904839992523193,
-    "learning_rate": 1.4630000000000002e-05,
-    "num_tokens": 183109.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.2705,
+    "loss": 0.0081,
+    "grad_norm": 1.1160129308700562,
+    "learning_rate": 1.462e-05,
+    "num_tokens": 366639.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.541,
     "step": 541
   },
   {
-    "loss": 0.1085,
-    "grad_norm": 1.4652901887893677,
-    "learning_rate": 1.462e-05,
-    "num_tokens": 183621.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.271,
+    "loss": 0.0709,
+    "grad_norm": 1.0318498611450195,
+    "learning_rate": 1.4610000000000002e-05,
+    "num_tokens": 367663.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 0.542,
     "step": 542
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.30126360058784485,
-    "learning_rate": 1.4610000000000002e-05,
-    "num_tokens": 183712.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2715,
+    "loss": 0.0394,
+    "grad_norm": 1.2405304908752441,
+    "learning_rate": 1.46e-05,
+    "num_tokens": 368266.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.543,
     "step": 543
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.28965601325035095,
-    "learning_rate": 1.46e-05,
-    "num_tokens": 183803.0,
+    "loss": 0.0081,
+    "grad_norm": 1.2077956199645996,
+    "learning_rate": 1.4590000000000003e-05,
+    "num_tokens": 368448.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.272,
+    "epoch": 0.544,
     "step": 544
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.23019753396511078,
-    "learning_rate": 1.4590000000000003e-05,
-    "num_tokens": 183894.0,
+    "loss": 0.0073,
+    "grad_norm": 1.0318228006362915,
+    "learning_rate": 1.4580000000000001e-05,
+    "num_tokens": 368630.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.2725,
+    "epoch": 0.545,
     "step": 545
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.21258652210235596,
-    "learning_rate": 1.4580000000000001e-05,
-    "num_tokens": 183985.0,
+    "loss": 0.0061,
+    "grad_norm": 0.6988610029220581,
+    "learning_rate": 1.4570000000000001e-05,
+    "num_tokens": 368812.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.273,
+    "epoch": 0.546,
     "step": 546
   },
   {
-    "loss": 0.0748,
-    "grad_norm": 1.3212836980819702,
-    "learning_rate": 1.4570000000000001e-05,
-    "num_tokens": 184497.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.2735,
+    "loss": 0.0962,
+    "grad_norm": 1.2362191677093506,
+    "learning_rate": 1.4560000000000001e-05,
+    "num_tokens": 369836.0,
+    "mean_token_accuracy": 0.9618395566940308,
+    "epoch": 0.547,
     "step": 547
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.15865401923656464,
-    "learning_rate": 1.4560000000000001e-05,
-    "num_tokens": 184588.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.274,
+    "loss": 0.0475,
+    "grad_norm": 1.1755952835083008,
+    "learning_rate": 1.4550000000000001e-05,
+    "num_tokens": 370439.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.548,
     "step": 548
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.18746234476566315,
-    "learning_rate": 1.4550000000000001e-05,
-    "num_tokens": 184679.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2745,
+    "loss": 0.0395,
+    "grad_norm": 1.067665934562683,
+    "learning_rate": 1.4540000000000001e-05,
+    "num_tokens": 371042.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.549,
     "step": 549
   },
   {
-    "loss": 0.0684,
-    "grad_norm": 1.4932857751846313,
-    "learning_rate": 1.4540000000000001e-05,
-    "num_tokens": 185191.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.275,
+    "loss": 0.0697,
+    "grad_norm": 1.282993197441101,
+    "learning_rate": 1.4530000000000001e-05,
+    "num_tokens": 371645.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.55,
     "step": 550
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.23370607197284698,
-    "learning_rate": 1.4530000000000001e-05,
-    "num_tokens": 185282.0,
+    "loss": 0.0043,
+    "grad_norm": 0.33643096685409546,
+    "learning_rate": 1.4520000000000002e-05,
+    "num_tokens": 371827.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.2755,
+    "epoch": 0.551,
     "step": 551
   },
   {
-    "loss": 0.0765,
-    "grad_norm": 1.3977128267288208,
-    "learning_rate": 1.4520000000000002e-05,
-    "num_tokens": 185794.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.276,
+    "loss": 0.0041,
+    "grad_norm": 0.32346561551094055,
+    "learning_rate": 1.4510000000000002e-05,
+    "num_tokens": 372009.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.552,
     "step": 552
   },
   {
-    "loss": 0.0999,
-    "grad_norm": 1.421388030052185,
-    "learning_rate": 1.4510000000000002e-05,
-    "num_tokens": 186306.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.2765,
+    "loss": 0.0782,
+    "grad_norm": 1.3768310546875,
+    "learning_rate": 1.45e-05,
+    "num_tokens": 372612.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.553,
     "step": 553
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.41459253430366516,
-    "learning_rate": 1.45e-05,
-    "num_tokens": 186397.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.277,
+    "loss": 0.0631,
+    "grad_norm": 0.9446674585342407,
+    "learning_rate": 1.4490000000000002e-05,
+    "num_tokens": 373636.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.554,
     "step": 554
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.4490201473236084,
-    "learning_rate": 1.4490000000000002e-05,
-    "num_tokens": 186488.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2775,
+    "loss": 0.0666,
+    "grad_norm": 1.2715314626693726,
+    "learning_rate": 1.448e-05,
+    "num_tokens": 374660.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.555,
     "step": 555
   },
   {
-    "loss": 0.0918,
-    "grad_norm": 1.3046605587005615,
-    "learning_rate": 1.448e-05,
-    "num_tokens": 187000.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.278,
+    "loss": 0.0663,
+    "grad_norm": 1.154998540878296,
+    "learning_rate": 1.4470000000000002e-05,
+    "num_tokens": 375684.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 0.556,
     "step": 556
   },
   {
-    "loss": 0.0864,
-    "grad_norm": 1.233083963394165,
-    "learning_rate": 1.4470000000000002e-05,
-    "num_tokens": 187512.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.2785,
+    "loss": 0.0511,
+    "grad_norm": 0.8647584915161133,
+    "learning_rate": 1.446e-05,
+    "num_tokens": 376708.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 0.557,
     "step": 557
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.6014226078987122,
-    "learning_rate": 1.446e-05,
-    "num_tokens": 187603.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.279,
+    "loss": 0.0487,
+    "grad_norm": 0.9593469500541687,
+    "learning_rate": 1.4450000000000002e-05,
+    "num_tokens": 377311.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.558,
     "step": 558
   },
   {
-    "loss": 0.1619,
-    "grad_norm": 2.670433759689331,
-    "learning_rate": 1.4450000000000002e-05,
-    "num_tokens": 188115.0,
-    "mean_token_accuracy": 0.9549902081489563,
-    "epoch": 0.2795,
+    "loss": 0.0566,
+    "grad_norm": 0.6962567567825317,
+    "learning_rate": 1.444e-05,
+    "num_tokens": 378335.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.559,
     "step": 559
   },
   {
-    "loss": 0.0034,
-    "grad_norm": 0.6123008131980896,
-    "learning_rate": 1.444e-05,
-    "num_tokens": 188206.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.28,
+    "loss": 0.0581,
+    "grad_norm": 0.9556426405906677,
+    "learning_rate": 1.4430000000000002e-05,
+    "num_tokens": 379359.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.56,
     "step": 560
   },
   {
-    "loss": 0.1146,
-    "grad_norm": 1.6403765678405762,
-    "learning_rate": 1.4430000000000002e-05,
-    "num_tokens": 188718.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.2805,
+    "loss": 0.0531,
+    "grad_norm": 0.9037861227989197,
+    "learning_rate": 1.4420000000000001e-05,
+    "num_tokens": 380383.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 0.561,
     "step": 561
   },
   {
-    "loss": 0.1593,
-    "grad_norm": 2.7106077671051025,
-    "learning_rate": 1.4420000000000001e-05,
-    "num_tokens": 189230.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.281,
+    "loss": 0.0459,
+    "grad_norm": 1.1316790580749512,
+    "learning_rate": 1.4410000000000001e-05,
+    "num_tokens": 380986.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.562,
     "step": 562
   },
   {
-    "loss": 0.0035,
-    "grad_norm": 0.693053126335144,
-    "learning_rate": 1.4410000000000001e-05,
-    "num_tokens": 189321.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2815,
+    "loss": 0.0259,
+    "grad_norm": 3.605470657348633,
+    "learning_rate": 1.4400000000000001e-05,
+    "num_tokens": 381168.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.563,
     "step": 563
   },
   {
-    "loss": 0.06,
-    "grad_norm": 4.2686448097229,
-    "learning_rate": 1.4400000000000001e-05,
-    "num_tokens": 189833.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.282,
+    "loss": 0.064,
+    "grad_norm": 0.8718283176422119,
+    "learning_rate": 1.4390000000000001e-05,
+    "num_tokens": 382192.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.564,
     "step": 564
   },
   {
-    "loss": 0.0764,
-    "grad_norm": 1.4215189218521118,
-    "learning_rate": 1.4390000000000001e-05,
-    "num_tokens": 190345.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.2825,
+    "loss": 0.0807,
+    "grad_norm": 0.9344546794891357,
+    "learning_rate": 1.4380000000000001e-05,
+    "num_tokens": 383216.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.565,
     "step": 565
   },
   {
-    "loss": 0.0037,
-    "grad_norm": 0.7100173234939575,
-    "learning_rate": 1.4380000000000001e-05,
-    "num_tokens": 190436.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.283,
+    "loss": 0.0655,
+    "grad_norm": 1.1615803241729736,
+    "learning_rate": 1.4370000000000001e-05,
+    "num_tokens": 384240.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.566,
     "step": 566
   },
   {
-    "loss": 0.1991,
-    "grad_norm": 2.5193188190460205,
-    "learning_rate": 1.4370000000000001e-05,
-    "num_tokens": 190948.0,
-    "mean_token_accuracy": 0.9452054500579834,
-    "epoch": 0.2835,
+    "loss": 0.04,
+    "grad_norm": 0.9558491706848145,
+    "learning_rate": 1.4360000000000001e-05,
+    "num_tokens": 384843.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.567,
     "step": 567
   },
   {
-    "loss": 0.0711,
-    "grad_norm": 1.3730517625808716,
-    "learning_rate": 1.4360000000000001e-05,
-    "num_tokens": 191460.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.284,
+    "loss": 0.0296,
+    "grad_norm": 3.508678674697876,
+    "learning_rate": 1.4350000000000002e-05,
+    "num_tokens": 385025.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.568,
     "step": 568
   },
   {
-    "loss": 0.0891,
-    "grad_norm": 1.397972583770752,
-    "learning_rate": 1.4350000000000002e-05,
-    "num_tokens": 191972.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.2845,
+    "loss": 0.0599,
+    "grad_norm": 1.2113062143325806,
+    "learning_rate": 1.434e-05,
+    "num_tokens": 386049.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.569,
     "step": 569
   },
   {
-    "loss": 0.0928,
-    "grad_norm": 1.5409183502197266,
-    "learning_rate": 1.434e-05,
-    "num_tokens": 192484.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.285,
+    "loss": 0.0531,
+    "grad_norm": 1.2263380289077759,
+    "learning_rate": 1.4330000000000002e-05,
+    "num_tokens": 386652.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.57,
     "step": 570
   },
   {
-    "loss": 0.0893,
-    "grad_norm": 1.1101114749908447,
-    "learning_rate": 1.4330000000000002e-05,
-    "num_tokens": 192996.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.2855,
+    "loss": 0.0471,
+    "grad_norm": 1.1156768798828125,
+    "learning_rate": 1.432e-05,
+    "num_tokens": 387255.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.571,
     "step": 571
   },
   {
-    "loss": 0.0055,
-    "grad_norm": 1.2417343854904175,
-    "learning_rate": 1.432e-05,
-    "num_tokens": 193087.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.286,
+    "loss": 0.0418,
+    "grad_norm": 0.7835745215415955,
+    "learning_rate": 1.4310000000000002e-05,
+    "num_tokens": 388279.0,
+    "mean_token_accuracy": 0.9833659529685974,
+    "epoch": 0.572,
     "step": 572
   },
   {
-    "loss": 0.0829,
-    "grad_norm": 1.277969479560852,
-    "learning_rate": 1.4310000000000002e-05,
-    "num_tokens": 193599.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.2865,
+    "loss": 0.0449,
+    "grad_norm": 1.0317991971969604,
+    "learning_rate": 1.43e-05,
+    "num_tokens": 388882.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.573,
     "step": 573
   },
   {
-    "loss": 0.0892,
-    "grad_norm": 1.385054349899292,
-    "learning_rate": 1.43e-05,
-    "num_tokens": 194111.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.287,
+    "loss": 0.0373,
+    "grad_norm": 0.9112545847892761,
+    "learning_rate": 1.4290000000000002e-05,
+    "num_tokens": 389485.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.574,
     "step": 574
   },
   {
-    "loss": 0.0074,
-    "grad_norm": 1.8123408555984497,
-    "learning_rate": 1.4290000000000002e-05,
-    "num_tokens": 194202.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2875,
+    "loss": 0.0144,
+    "grad_norm": 2.238581657409668,
+    "learning_rate": 1.428e-05,
+    "num_tokens": 389667.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.575,
     "step": 575
   },
   {
-    "loss": 0.0575,
-    "grad_norm": 1.3045315742492676,
-    "learning_rate": 1.428e-05,
-    "num_tokens": 194714.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.288,
+    "loss": 0.1003,
+    "grad_norm": 1.459584355354309,
+    "learning_rate": 1.4270000000000002e-05,
+    "num_tokens": 390270.0,
+    "mean_token_accuracy": 0.9633943438529968,
+    "epoch": 0.576,
     "step": 576
   },
   {
-    "loss": 0.1662,
-    "grad_norm": 2.5381715297698975,
-    "learning_rate": 1.4270000000000002e-05,
-    "num_tokens": 195226.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.2885,
+    "loss": 0.0096,
+    "grad_norm": 1.6822608709335327,
+    "learning_rate": 1.426e-05,
+    "num_tokens": 390452.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.577,
     "step": 577
   },
   {
-    "loss": 0.0067,
-    "grad_norm": 1.5872633457183838,
-    "learning_rate": 1.426e-05,
-    "num_tokens": 195317.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.289,
+    "loss": 0.0538,
+    "grad_norm": 0.8980907797813416,
+    "learning_rate": 1.425e-05,
+    "num_tokens": 391476.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.578,
     "step": 578
   },
   {
-    "loss": 0.0061,
-    "grad_norm": 1.5367522239685059,
-    "learning_rate": 1.425e-05,
-    "num_tokens": 195408.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2895,
+    "loss": 0.0388,
+    "grad_norm": 1.2530609369277954,
+    "learning_rate": 1.4240000000000001e-05,
+    "num_tokens": 392079.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.579,
     "step": 579
   },
   {
-    "loss": 0.0052,
-    "grad_norm": 1.1771265268325806,
-    "learning_rate": 1.4240000000000001e-05,
-    "num_tokens": 195499.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.29,
+    "loss": 0.058,
+    "grad_norm": 1.6785279512405396,
+    "learning_rate": 1.4230000000000001e-05,
+    "num_tokens": 393103.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.58,
     "step": 580
   },
   {
-    "loss": 0.0035,
-    "grad_norm": 0.596717119216919,
-    "learning_rate": 1.4230000000000001e-05,
-    "num_tokens": 195590.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2905,
+    "loss": 0.0455,
+    "grad_norm": 0.9678398966789246,
+    "learning_rate": 1.4220000000000001e-05,
+    "num_tokens": 393706.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.581,
     "step": 581
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.3555561900138855,
-    "learning_rate": 1.4220000000000001e-05,
-    "num_tokens": 195681.0,
+    "loss": 0.0053,
+    "grad_norm": 0.6296008229255676,
+    "learning_rate": 1.4210000000000001e-05,
+    "num_tokens": 393888.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.291,
+    "epoch": 0.582,
     "step": 582
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.31791797280311584,
-    "learning_rate": 1.4210000000000001e-05,
-    "num_tokens": 195772.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2915,
+    "loss": 0.0345,
+    "grad_norm": 0.8543047308921814,
+    "learning_rate": 1.4200000000000001e-05,
+    "num_tokens": 394491.0,
+    "mean_token_accuracy": 0.9883527159690857,
+    "epoch": 0.583,
     "step": 583
   },
   {
-    "loss": 0.1456,
-    "grad_norm": 3.0790412425994873,
-    "learning_rate": 1.4200000000000001e-05,
-    "num_tokens": 196284.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.292,
+    "loss": 0.0717,
+    "grad_norm": 1.287461519241333,
+    "learning_rate": 1.4190000000000001e-05,
+    "num_tokens": 395515.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 0.584,
     "step": 584
   },
   {
-    "loss": 0.0915,
-    "grad_norm": 1.610164761543274,
-    "learning_rate": 1.4190000000000001e-05,
-    "num_tokens": 196796.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.2925,
+    "loss": 0.0365,
+    "grad_norm": 1.0201870203018188,
+    "learning_rate": 1.418e-05,
+    "num_tokens": 396118.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 0.585,
     "step": 585
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.35682275891304016,
-    "learning_rate": 1.418e-05,
-    "num_tokens": 196887.0,
+    "loss": 0.0051,
+    "grad_norm": 0.67372727394104,
+    "learning_rate": 1.4170000000000002e-05,
+    "num_tokens": 396300.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.293,
+    "epoch": 0.586,
     "step": 586
   },
   {
-    "loss": 0.0758,
-    "grad_norm": 1.1877442598342896,
-    "learning_rate": 1.4170000000000002e-05,
-    "num_tokens": 197399.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.2935,
+    "loss": 0.0988,
+    "grad_norm": 1.6359323263168335,
+    "learning_rate": 1.416e-05,
+    "num_tokens": 396903.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.587,
     "step": 587
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.3156123459339142,
-    "learning_rate": 1.416e-05,
-    "num_tokens": 197490.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.294,
+    "loss": 0.0581,
+    "grad_norm": 0.944645345211029,
+    "learning_rate": 1.4150000000000002e-05,
+    "num_tokens": 397506.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.588,
     "step": 588
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.25764769315719604,
-    "learning_rate": 1.4150000000000002e-05,
-    "num_tokens": 197581.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2945,
-    "step": 589
-  },
-  {
-    "loss": 0.1041,
-    "grad_norm": 1.8042068481445312,
+    "loss": 0.0428,
+    "grad_norm": 0.9059939384460449,
     "learning_rate": 1.414e-05,
-    "num_tokens": 198093.0,
+    "num_tokens": 398109.0,
+    "mean_token_accuracy": 0.9883527159690857,
+    "epoch": 0.589,
+    "step": 589
+  },
+  {
+    "loss": 0.0622,
+    "grad_norm": 0.939890444278717,
+    "learning_rate": 1.4130000000000002e-05,
+    "num_tokens": 399133.0,
     "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.295,
+    "epoch": 0.59,
     "step": 590
   },
   {
-    "loss": 0.1758,
-    "grad_norm": 2.5269131660461426,
-    "learning_rate": 1.4130000000000002e-05,
-    "num_tokens": 198605.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.2955,
+    "loss": 0.0621,
+    "grad_norm": 0.8959317207336426,
+    "learning_rate": 1.412e-05,
+    "num_tokens": 399736.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.591,
     "step": 591
   },
   {
-    "loss": 0.0016,
-    "grad_norm": 0.12714117765426636,
-    "learning_rate": 1.412e-05,
-    "num_tokens": 198696.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.296,
+    "loss": 0.0554,
+    "grad_norm": 1.2328743934631348,
+    "learning_rate": 1.4110000000000002e-05,
+    "num_tokens": 400339.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.592,
     "step": 592
   },
   {
-    "loss": 0.0016,
-    "grad_norm": 0.13591638207435608,
-    "learning_rate": 1.4110000000000002e-05,
-    "num_tokens": 198787.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2965,
+    "loss": 0.0447,
+    "grad_norm": 0.7593986988067627,
+    "learning_rate": 1.41e-05,
+    "num_tokens": 401363.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 0.593,
     "step": 593
   },
   {
-    "loss": 0.0943,
-    "grad_norm": 1.4506866931915283,
-    "learning_rate": 1.41e-05,
-    "num_tokens": 199299.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.297,
+    "loss": 0.0487,
+    "grad_norm": 0.7263651490211487,
+    "learning_rate": 1.409e-05,
+    "num_tokens": 402387.0,
+    "mean_token_accuracy": 0.9843444228172302,
+    "epoch": 0.594,
     "step": 594
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.17016956210136414,
-    "learning_rate": 1.409e-05,
-    "num_tokens": 199390.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.2975,
+    "loss": 0.0604,
+    "grad_norm": 1.2630764245986938,
+    "learning_rate": 1.408e-05,
+    "num_tokens": 402990.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.595,
     "step": 595
   },
   {
-    "loss": 0.0715,
-    "grad_norm": 1.1805306673049927,
-    "learning_rate": 1.408e-05,
-    "num_tokens": 199902.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.298,
+    "loss": 0.0386,
+    "grad_norm": 1.0648528337478638,
+    "learning_rate": 1.407e-05,
+    "num_tokens": 403593.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.596,
     "step": 596
   },
   {
-    "loss": 0.0831,
-    "grad_norm": 1.2475357055664062,
-    "learning_rate": 1.407e-05,
-    "num_tokens": 200414.0,
+    "loss": 0.0573,
+    "grad_norm": 0.8750402331352234,
+    "learning_rate": 1.4060000000000001e-05,
+    "num_tokens": 404617.0,
     "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.2985,
+    "epoch": 0.597,
     "step": 597
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.35699722170829773,
-    "learning_rate": 1.4060000000000001e-05,
-    "num_tokens": 200505.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.299,
+    "loss": 0.0688,
+    "grad_norm": 0.9205127358436584,
+    "learning_rate": 1.4050000000000001e-05,
+    "num_tokens": 405641.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.598,
     "step": 598
   },
   {
-    "loss": 0.0721,
-    "grad_norm": 1.1971431970596313,
-    "learning_rate": 1.4050000000000001e-05,
-    "num_tokens": 201017.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.2995,
+    "loss": 0.0556,
+    "grad_norm": 0.8728544116020203,
+    "learning_rate": 1.4040000000000001e-05,
+    "num_tokens": 406665.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.599,
     "step": 599
   },
   {
-    "loss": 0.066,
-    "grad_norm": 1.1251575946807861,
-    "learning_rate": 1.4040000000000001e-05,
-    "num_tokens": 201529.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.3,
+    "loss": 0.0547,
+    "grad_norm": 1.0766440629959106,
+    "learning_rate": 1.4030000000000001e-05,
+    "num_tokens": 407268.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.6,
     "step": 600
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.5506196618080139,
-    "learning_rate": 1.4030000000000001e-05,
-    "num_tokens": 201620.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3005,
+    "loss": 0.3259,
+    "grad_norm": 6.388917446136475,
+    "learning_rate": 1.402e-05,
+    "num_tokens": 408292.0,
+    "mean_token_accuracy": 0.9207436442375183,
+    "epoch": 0.601,
     "step": 601
   },
   {
-    "loss": 0.1048,
-    "grad_norm": 1.8220717906951904,
-    "learning_rate": 1.402e-05,
-    "num_tokens": 202132.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.301,
+    "loss": 0.0617,
+    "grad_norm": 1.350803256034851,
+    "learning_rate": 1.4010000000000001e-05,
+    "num_tokens": 408895.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.602,
     "step": 602
   },
   {
-    "loss": 0.0037,
-    "grad_norm": 0.8545289039611816,
-    "learning_rate": 1.4010000000000001e-05,
-    "num_tokens": 202223.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3015,
+    "loss": 0.0262,
+    "grad_norm": 4.706890106201172,
+    "learning_rate": 1.4e-05,
+    "num_tokens": 409077.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.603,
     "step": 603
   },
   {
-    "loss": 0.0037,
-    "grad_norm": 0.8475953936576843,
-    "learning_rate": 1.4e-05,
-    "num_tokens": 202314.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.302,
+    "loss": 0.0864,
+    "grad_norm": 1.3663084506988525,
+    "learning_rate": 1.3990000000000002e-05,
+    "num_tokens": 410101.0,
+    "mean_token_accuracy": 0.9647749662399292,
+    "epoch": 0.604,
     "step": 604
   },
   {
-    "loss": 0.0967,
-    "grad_norm": 1.2703156471252441,
-    "learning_rate": 1.3990000000000002e-05,
-    "num_tokens": 202826.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.3025,
+    "loss": 0.0952,
+    "grad_norm": 1.8354886770248413,
+    "learning_rate": 1.398e-05,
+    "num_tokens": 410704.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.605,
     "step": 605
   },
   {
-    "loss": 0.098,
-    "grad_norm": 1.2548829317092896,
-    "learning_rate": 1.398e-05,
-    "num_tokens": 203338.0,
+    "loss": 0.0815,
+    "grad_norm": 1.1599925756454468,
+    "learning_rate": 1.3970000000000002e-05,
+    "num_tokens": 411728.0,
     "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.303,
+    "epoch": 0.606,
     "step": 606
   },
   {
-    "loss": 0.0924,
-    "grad_norm": 1.2570987939834595,
-    "learning_rate": 1.3970000000000002e-05,
-    "num_tokens": 203850.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.3035,
+    "loss": 0.0123,
+    "grad_norm": 2.261835813522339,
+    "learning_rate": 1.396e-05,
+    "num_tokens": 411910.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.607,
     "step": 607
   },
   {
-    "loss": 0.0609,
-    "grad_norm": 1.531058669090271,
-    "learning_rate": 1.396e-05,
-    "num_tokens": 204362.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.304,
+    "loss": 0.0742,
+    "grad_norm": 1.4766002893447876,
+    "learning_rate": 1.3950000000000002e-05,
+    "num_tokens": 412934.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 0.608,
     "step": 608
   },
   {
-    "loss": 0.1424,
-    "grad_norm": 2.5060534477233887,
-    "learning_rate": 1.3950000000000002e-05,
-    "num_tokens": 204874.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.3045,
+    "loss": 0.0719,
+    "grad_norm": 1.077452540397644,
+    "learning_rate": 1.394e-05,
+    "num_tokens": 413958.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 0.609,
     "step": 609
   },
   {
-    "loss": 0.0048,
-    "grad_norm": 1.0655303001403809,
-    "learning_rate": 1.394e-05,
-    "num_tokens": 204965.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.305,
+    "loss": 0.0626,
+    "grad_norm": 1.2010332345962524,
+    "learning_rate": 1.393e-05,
+    "num_tokens": 414561.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.61,
     "step": 610
   },
   {
-    "loss": 0.0593,
-    "grad_norm": 1.0243408679962158,
-    "learning_rate": 1.393e-05,
-    "num_tokens": 205477.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.3055,
+    "loss": 0.0482,
+    "grad_norm": 1.1365265846252441,
+    "learning_rate": 1.392e-05,
+    "num_tokens": 415164.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.611,
     "step": 611
   },
   {
-    "loss": 0.0905,
-    "grad_norm": 1.3182287216186523,
-    "learning_rate": 1.392e-05,
-    "num_tokens": 205989.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.306,
+    "loss": 0.0774,
+    "grad_norm": 1.2080539464950562,
+    "learning_rate": 1.391e-05,
+    "num_tokens": 416188.0,
+    "mean_token_accuracy": 0.9647749662399292,
+    "epoch": 0.612,
     "step": 612
   },
   {
-    "loss": 0.0068,
-    "grad_norm": 1.4663218259811401,
-    "learning_rate": 1.391e-05,
-    "num_tokens": 206080.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3065,
+    "loss": 0.0546,
+    "grad_norm": 0.9698471426963806,
+    "learning_rate": 1.39e-05,
+    "num_tokens": 416791.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.613,
     "step": 613
   },
   {
-    "loss": 0.0057,
-    "grad_norm": 1.2375314235687256,
-    "learning_rate": 1.39e-05,
-    "num_tokens": 206171.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.307,
+    "loss": 0.06,
+    "grad_norm": 1.1115221977233887,
+    "learning_rate": 1.389e-05,
+    "num_tokens": 417394.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.614,
     "step": 614
   },
   {
-    "loss": 0.0489,
-    "grad_norm": 1.071290135383606,
-    "learning_rate": 1.389e-05,
-    "num_tokens": 206683.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.3075,
+    "loss": 0.0072,
+    "grad_norm": 1.051293969154358,
+    "learning_rate": 1.3880000000000001e-05,
+    "num_tokens": 417576.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.615,
     "step": 615
   },
   {
-    "loss": 0.0743,
-    "grad_norm": 1.0402666330337524,
-    "learning_rate": 1.3880000000000001e-05,
-    "num_tokens": 207195.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.308,
+    "loss": 0.0457,
+    "grad_norm": 1.0508517026901245,
+    "learning_rate": 1.3870000000000001e-05,
+    "num_tokens": 418600.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 0.616,
     "step": 616
   },
   {
-    "loss": 0.1041,
-    "grad_norm": 2.195901870727539,
-    "learning_rate": 1.3870000000000001e-05,
-    "num_tokens": 207707.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.3085,
+    "loss": 0.0649,
+    "grad_norm": 1.458174467086792,
+    "learning_rate": 1.386e-05,
+    "num_tokens": 419203.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.617,
     "step": 617
   },
   {
-    "loss": 0.0038,
-    "grad_norm": 0.7095027565956116,
-    "learning_rate": 1.386e-05,
-    "num_tokens": 207798.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.309,
+    "loss": 0.0598,
+    "grad_norm": 1.3368812799453735,
+    "learning_rate": 1.3850000000000001e-05,
+    "num_tokens": 420227.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.618,
     "step": 618
   },
   {
-    "loss": 0.0804,
-    "grad_norm": 1.4653010368347168,
-    "learning_rate": 1.3850000000000001e-05,
-    "num_tokens": 208310.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.3095,
+    "loss": 0.0558,
+    "grad_norm": 1.0999784469604492,
+    "learning_rate": 1.384e-05,
+    "num_tokens": 420830.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.619,
     "step": 619
   },
   {
-    "loss": 0.0038,
-    "grad_norm": 0.7164344191551208,
-    "learning_rate": 1.384e-05,
-    "num_tokens": 208401.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.31,
+    "loss": 0.0835,
+    "grad_norm": 1.2071765661239624,
+    "learning_rate": 1.3830000000000001e-05,
+    "num_tokens": 421854.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 0.62,
     "step": 620
   },
   {
-    "loss": 0.1019,
-    "grad_norm": 1.508054494857788,
-    "learning_rate": 1.3830000000000001e-05,
-    "num_tokens": 208913.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.3105,
+    "loss": 0.048,
+    "grad_norm": 1.2251503467559814,
+    "learning_rate": 1.382e-05,
+    "num_tokens": 422457.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.621,
     "step": 621
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.4974660575389862,
-    "learning_rate": 1.382e-05,
-    "num_tokens": 209004.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.311,
+    "loss": 0.0497,
+    "grad_norm": 1.2595113515853882,
+    "learning_rate": 1.3810000000000002e-05,
+    "num_tokens": 423481.0,
+    "mean_token_accuracy": 0.9843444228172302,
+    "epoch": 0.622,
     "step": 622
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.4921479821205139,
-    "learning_rate": 1.3810000000000002e-05,
-    "num_tokens": 209095.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3115,
+    "loss": 0.0647,
+    "grad_norm": 1.2705106735229492,
+    "learning_rate": 1.38e-05,
+    "num_tokens": 424505.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 0.623,
     "step": 623
   },
   {
-    "loss": 0.0614,
-    "grad_norm": 1.180677056312561,
-    "learning_rate": 1.38e-05,
-    "num_tokens": 209607.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.312,
+    "loss": 0.0577,
+    "grad_norm": 1.1510343551635742,
+    "learning_rate": 1.3790000000000002e-05,
+    "num_tokens": 425529.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.624,
     "step": 624
   },
   {
-    "loss": 0.0843,
-    "grad_norm": 1.1165193319320679,
-    "learning_rate": 1.3790000000000002e-05,
-    "num_tokens": 210119.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.3125,
+    "loss": 0.0659,
+    "grad_norm": 1.2172942161560059,
+    "learning_rate": 1.378e-05,
+    "num_tokens": 426132.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.625,
     "step": 625
   },
   {
-    "loss": 0.0816,
-    "grad_norm": 1.4082179069519043,
-    "learning_rate": 1.378e-05,
-    "num_tokens": 210631.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.313,
+    "loss": 0.0494,
+    "grad_norm": 1.2537918090820312,
+    "learning_rate": 1.377e-05,
+    "num_tokens": 426735.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.626,
     "step": 626
   },
   {
-    "loss": 0.0893,
-    "grad_norm": 1.1407965421676636,
-    "learning_rate": 1.377e-05,
-    "num_tokens": 211143.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.3135,
+    "loss": 0.057,
+    "grad_norm": 1.2958061695098877,
+    "learning_rate": 1.376e-05,
+    "num_tokens": 427338.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.627,
     "step": 627
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.47326186299324036,
-    "learning_rate": 1.376e-05,
-    "num_tokens": 211234.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.314,
+    "loss": 0.0547,
+    "grad_norm": 0.6661484837532043,
+    "learning_rate": 1.375e-05,
+    "num_tokens": 428362.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.628,
     "step": 628
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.48467254638671875,
-    "learning_rate": 1.375e-05,
-    "num_tokens": 211325.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3145,
+    "loss": 0.0897,
+    "grad_norm": 1.4734290838241577,
+    "learning_rate": 1.3740000000000002e-05,
+    "num_tokens": 428965.0,
+    "mean_token_accuracy": 0.961730420589447,
+    "epoch": 0.629,
     "step": 629
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.3466941714286804,
-    "learning_rate": 1.3740000000000002e-05,
-    "num_tokens": 211416.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.315,
+    "loss": 0.0519,
+    "grad_norm": 0.7639888525009155,
+    "learning_rate": 1.373e-05,
+    "num_tokens": 429989.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 0.63,
     "step": 630
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.383543461561203,
-    "learning_rate": 1.373e-05,
-    "num_tokens": 211507.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3155,
+    "loss": 0.0659,
+    "grad_norm": 1.1685161590576172,
+    "learning_rate": 1.3720000000000002e-05,
+    "num_tokens": 431013.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.631,
     "step": 631
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.3878021240234375,
-    "learning_rate": 1.3720000000000002e-05,
-    "num_tokens": 211598.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.316,
+    "loss": 0.0604,
+    "grad_norm": 0.9931361079216003,
+    "learning_rate": 1.3710000000000001e-05,
+    "num_tokens": 432037.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.632,
     "step": 632
   },
   {
-    "loss": 0.0699,
-    "grad_norm": 1.2407838106155396,
-    "learning_rate": 1.3710000000000001e-05,
-    "num_tokens": 212110.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.3165,
+    "loss": 0.0218,
+    "grad_norm": 2.6311545372009277,
+    "learning_rate": 1.3700000000000003e-05,
+    "num_tokens": 432219.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.633,
     "step": 633
   },
   {
-    "loss": 0.0956,
-    "grad_norm": 1.2576494216918945,
-    "learning_rate": 1.3700000000000003e-05,
-    "num_tokens": 212622.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.317,
+    "loss": 0.0199,
+    "grad_norm": 2.497168779373169,
+    "learning_rate": 1.3690000000000001e-05,
+    "num_tokens": 432401.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.634,
     "step": 634
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.25685280561447144,
-    "learning_rate": 1.3690000000000001e-05,
-    "num_tokens": 212713.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3175,
+    "loss": 0.0633,
+    "grad_norm": 0.8656933307647705,
+    "learning_rate": 1.3680000000000003e-05,
+    "num_tokens": 433425.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 0.635,
     "step": 635
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.2545858323574066,
-    "learning_rate": 1.3680000000000003e-05,
-    "num_tokens": 212804.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.318,
+    "loss": 0.0775,
+    "grad_norm": 1.6720925569534302,
+    "learning_rate": 1.3670000000000001e-05,
+    "num_tokens": 434028.0,
+    "mean_token_accuracy": 0.9667221307754517,
+    "epoch": 0.636,
     "step": 636
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.2819485366344452,
-    "learning_rate": 1.3670000000000001e-05,
-    "num_tokens": 212895.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3185,
+    "loss": 0.0701,
+    "grad_norm": 1.2704541683197021,
+    "learning_rate": 1.3660000000000001e-05,
+    "num_tokens": 434631.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.637,
     "step": 637
   },
   {
-    "loss": 0.0858,
-    "grad_norm": 1.0897297859191895,
-    "learning_rate": 1.3660000000000001e-05,
-    "num_tokens": 213407.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.319,
+    "loss": 0.0108,
+    "grad_norm": 1.5020633935928345,
+    "learning_rate": 1.3650000000000001e-05,
+    "num_tokens": 434813.0,
+    "mean_token_accuracy": 0.9944444298744202,
+    "epoch": 0.638,
     "step": 638
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.325777530670166,
-    "learning_rate": 1.3650000000000001e-05,
-    "num_tokens": 213498.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3195,
+    "loss": 0.0404,
+    "grad_norm": 0.7698756456375122,
+    "learning_rate": 1.3640000000000002e-05,
+    "num_tokens": 435416.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.639,
     "step": 639
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.29383793473243713,
-    "learning_rate": 1.3640000000000002e-05,
-    "num_tokens": 213589.0,
+    "loss": 0.008,
+    "grad_norm": 1.2060641050338745,
+    "learning_rate": 1.3630000000000002e-05,
+    "num_tokens": 435598.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.32,
+    "epoch": 0.64,
     "step": 640
   },
   {
-    "loss": 0.0944,
-    "grad_norm": 1.389978289604187,
-    "learning_rate": 1.3630000000000002e-05,
-    "num_tokens": 214101.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.3205,
-    "step": 641
-  },
-  {
-    "loss": 0.0962,
-    "grad_norm": 1.3364863395690918,
+    "loss": 0.0747,
+    "grad_norm": 1.159375786781311,
     "learning_rate": 1.3620000000000002e-05,
-    "num_tokens": 214613.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.321,
-    "step": 642
+    "num_tokens": 436622.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 0.641,
+    "step": 641
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.23381884396076202,
+    "loss": 0.0054,
+    "grad_norm": 0.802221417427063,
     "learning_rate": 1.3610000000000002e-05,
-    "num_tokens": 214704.0,
+    "num_tokens": 436804.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.3215,
-    "step": 643
+    "epoch": 0.642,
+    "step": 642
   },
   {
-    "loss": 0.058,
-    "grad_norm": 1.5767658948898315,
+    "loss": 0.0631,
+    "grad_norm": 1.0704505443572998,
     "learning_rate": 1.3600000000000002e-05,
-    "num_tokens": 215216.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.322,
-    "step": 644
+    "num_tokens": 437407.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.643,
+    "step": 643
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.288552463054657,
+    "loss": 0.0555,
+    "grad_norm": 0.9658818244934082,
     "learning_rate": 1.359e-05,
-    "num_tokens": 215307.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3225,
-    "step": 645
+    "num_tokens": 438431.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.644,
+    "step": 644
   },
   {
-    "loss": 0.0894,
-    "grad_norm": 1.6633201837539673,
+    "loss": 0.0831,
+    "grad_norm": 1.4335317611694336,
     "learning_rate": 1.3580000000000002e-05,
-    "num_tokens": 215819.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.323,
-    "step": 646
+    "num_tokens": 439455.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.645,
+    "step": 645
   },
   {
-    "loss": 0.0829,
-    "grad_norm": 1.4220677614212036,
+    "loss": 0.0387,
+    "grad_norm": 0.9613522291183472,
     "learning_rate": 1.357e-05,
-    "num_tokens": 216331.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.3235,
-    "step": 647
+    "num_tokens": 440058.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 0.646,
+    "step": 646
   },
   {
-    "loss": 0.0845,
-    "grad_norm": 1.3433754444122314,
+    "loss": 0.0034,
+    "grad_norm": 0.3476230204105377,
     "learning_rate": 1.3560000000000002e-05,
-    "num_tokens": 216843.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.324,
-    "step": 648
+    "num_tokens": 440240.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.647,
+    "step": 647
   },
   {
-    "loss": 0.0917,
-    "grad_norm": 1.295201063156128,
+    "loss": 0.0446,
+    "grad_norm": 1.1713249683380127,
     "learning_rate": 1.355e-05,
-    "num_tokens": 217355.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.3245,
-    "step": 649
+    "num_tokens": 440843.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.648,
+    "step": 648
   },
   {
-    "loss": 0.0891,
-    "grad_norm": 1.3927174806594849,
+    "loss": 0.0469,
+    "grad_norm": 1.0446158647537231,
     "learning_rate": 1.3540000000000003e-05,
-    "num_tokens": 217867.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.325,
-    "step": 650
+    "num_tokens": 441446.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.649,
+    "step": 649
   },
   {
-    "loss": 0.006,
-    "grad_norm": 1.4622353315353394,
+    "loss": 0.0754,
+    "grad_norm": 1.0586427450180054,
     "learning_rate": 1.3530000000000001e-05,
-    "num_tokens": 217958.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3255,
-    "step": 651
+    "num_tokens": 442470.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 0.65,
+    "step": 650
   },
   {
-    "loss": 0.0481,
-    "grad_norm": 1.178935170173645,
+    "loss": 0.0681,
+    "grad_norm": 1.0640681982040405,
     "learning_rate": 1.3520000000000003e-05,
-    "num_tokens": 218470.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.326,
-    "step": 652
+    "num_tokens": 443494.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 0.651,
+    "step": 651
   },
   {
-    "loss": 0.0075,
-    "grad_norm": 1.825118064880371,
+    "loss": 0.0387,
+    "grad_norm": 0.8930626511573792,
     "learning_rate": 1.3510000000000001e-05,
-    "num_tokens": 218561.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3265,
-    "step": 653
+    "num_tokens": 444097.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.652,
+    "step": 652
   },
   {
-    "loss": 0.0065,
-    "grad_norm": 1.5563267469406128,
+    "loss": 0.0482,
+    "grad_norm": 0.9406304955482483,
     "learning_rate": 1.3500000000000001e-05,
-    "num_tokens": 218652.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.327,
-    "step": 654
+    "num_tokens": 445121.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.653,
+    "step": 653
   },
   {
-    "loss": 0.0059,
-    "grad_norm": 1.4133291244506836,
+    "loss": 0.052,
+    "grad_norm": 0.8975579738616943,
     "learning_rate": 1.3490000000000001e-05,
-    "num_tokens": 218743.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3275,
-    "step": 655
+    "num_tokens": 445724.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.654,
+    "step": 654
   },
   {
-    "loss": 0.0753,
-    "grad_norm": 1.4185911417007446,
+    "loss": 0.0516,
+    "grad_norm": 1.0024687051773071,
     "learning_rate": 1.3480000000000001e-05,
-    "num_tokens": 219255.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.328,
-    "step": 656
+    "num_tokens": 446327.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.655,
+    "step": 655
   },
   {
-    "loss": 0.087,
-    "grad_norm": 1.3738617897033691,
+    "loss": 0.0607,
+    "grad_norm": 1.477307677268982,
     "learning_rate": 1.3470000000000001e-05,
-    "num_tokens": 219767.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.3285,
-    "step": 657
+    "num_tokens": 446930.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.656,
+    "step": 656
   },
   {
-    "loss": 0.0702,
-    "grad_norm": 1.0876400470733643,
+    "loss": 0.0577,
+    "grad_norm": 0.7049059271812439,
     "learning_rate": 1.3460000000000002e-05,
-    "num_tokens": 220279.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.329,
-    "step": 658
+    "num_tokens": 447954.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.657,
+    "step": 657
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.587776243686676,
+    "loss": 0.0554,
+    "grad_norm": 1.0566304922103882,
     "learning_rate": 1.3450000000000002e-05,
-    "num_tokens": 220370.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3295,
-    "step": 659
+    "num_tokens": 448557.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.658,
+    "step": 658
   },
   {
-    "loss": 0.057,
-    "grad_norm": 1.4529519081115723,
+    "loss": 0.0603,
+    "grad_norm": 1.3350647687911987,
     "learning_rate": 1.3440000000000002e-05,
-    "num_tokens": 220882.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.33,
-    "step": 660
+    "num_tokens": 449160.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.659,
+    "step": 659
   },
   {
-    "loss": 0.0596,
-    "grad_norm": 1.0564322471618652,
+    "loss": 0.055,
+    "grad_norm": 0.9154465198516846,
     "learning_rate": 1.343e-05,
-    "num_tokens": 221394.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.3305,
-    "step": 661
+    "num_tokens": 450184.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 0.66,
+    "step": 660
   },
   {
-    "loss": 0.0795,
-    "grad_norm": 1.359084129333496,
+    "loss": 0.0628,
+    "grad_norm": 1.230380654335022,
     "learning_rate": 1.3420000000000002e-05,
-    "num_tokens": 221906.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.331,
-    "step": 662
+    "num_tokens": 450787.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.661,
+    "step": 661
   },
   {
-    "loss": 0.0602,
-    "grad_norm": 1.625110387802124,
+    "loss": 0.0516,
+    "grad_norm": 0.9731350541114807,
     "learning_rate": 1.341e-05,
-    "num_tokens": 222418.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.3315,
-    "step": 663
+    "num_tokens": 451390.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.662,
+    "step": 662
   },
   {
-    "loss": 0.1519,
-    "grad_norm": 2.79744291305542,
+    "loss": 0.0471,
+    "grad_norm": 0.7833011746406555,
     "learning_rate": 1.3400000000000002e-05,
-    "num_tokens": 222930.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.332,
-    "step": 664
+    "num_tokens": 452414.0,
+    "mean_token_accuracy": 0.9823874831199646,
+    "epoch": 0.663,
+    "step": 663
   },
   {
-    "loss": 0.1522,
-    "grad_norm": 2.5003347396850586,
+    "loss": 0.0436,
+    "grad_norm": 0.7588993906974792,
     "learning_rate": 1.339e-05,
-    "num_tokens": 223442.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.3325,
-    "step": 665
+    "num_tokens": 453438.0,
+    "mean_token_accuracy": 0.9833659529685974,
+    "epoch": 0.664,
+    "step": 664
   },
   {
-    "loss": 0.0591,
-    "grad_norm": 1.2735769748687744,
+    "loss": 0.0916,
+    "grad_norm": 1.6703461408615112,
     "learning_rate": 1.3380000000000002e-05,
-    "num_tokens": 223954.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.333,
-    "step": 666
+    "num_tokens": 454041.0,
+    "mean_token_accuracy": 0.9633943438529968,
+    "epoch": 0.665,
+    "step": 665
   },
   {
-    "loss": 0.0603,
-    "grad_norm": 1.4963431358337402,
+    "loss": 0.0492,
+    "grad_norm": 0.6929834485054016,
     "learning_rate": 1.337e-05,
-    "num_tokens": 224466.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.3335,
-    "step": 667
+    "num_tokens": 455065.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.666,
+    "step": 666
   },
   {
-    "loss": 0.008,
-    "grad_norm": 1.6320358514785767,
+    "loss": 0.0465,
+    "grad_norm": 0.888302743434906,
     "learning_rate": 1.3360000000000003e-05,
-    "num_tokens": 224557.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.334,
-    "step": 668
+    "num_tokens": 455668.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.667,
+    "step": 667
   },
   {
-    "loss": 0.0885,
-    "grad_norm": 1.660543441772461,
+    "loss": 0.296,
+    "grad_norm": 5.514519214630127,
     "learning_rate": 1.3350000000000001e-05,
-    "num_tokens": 225069.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.3345,
-    "step": 669
+    "num_tokens": 456271.0,
+    "mean_token_accuracy": 0.9317803382873535,
+    "epoch": 0.668,
+    "step": 668
   },
   {
-    "loss": 0.059,
-    "grad_norm": 1.6638036966323853,
+    "loss": 0.0207,
+    "grad_norm": 2.874188184738159,
     "learning_rate": 1.3340000000000001e-05,
-    "num_tokens": 225581.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.335,
-    "step": 670
+    "num_tokens": 456453.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.669,
+    "step": 669
   },
   {
-    "loss": 0.0092,
-    "grad_norm": 1.7701940536499023,
+    "loss": 0.056,
+    "grad_norm": 0.6424664855003357,
     "learning_rate": 1.3330000000000001e-05,
-    "num_tokens": 225672.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3355,
-    "step": 671
+    "num_tokens": 457477.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.67,
+    "step": 670
   },
   {
-    "loss": 0.0717,
-    "grad_norm": 1.6387797594070435,
+    "loss": 0.0577,
+    "grad_norm": 0.8440362811088562,
     "learning_rate": 1.3320000000000001e-05,
-    "num_tokens": 226184.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.336,
-    "step": 672
+    "num_tokens": 458501.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.671,
+    "step": 671
   },
   {
-    "loss": 0.0795,
-    "grad_norm": 1.6651279926300049,
+    "loss": 0.0584,
+    "grad_norm": 0.8988680243492126,
     "learning_rate": 1.3310000000000001e-05,
-    "num_tokens": 226696.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.3365,
-    "step": 673
+    "num_tokens": 459104.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.672,
+    "step": 672
   },
   {
-    "loss": 0.0811,
-    "grad_norm": 1.6673662662506104,
+    "loss": 0.0802,
+    "grad_norm": 1.072707176208496,
     "learning_rate": 1.3300000000000001e-05,
-    "num_tokens": 227208.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.337,
-    "step": 674
+    "num_tokens": 460128.0,
+    "mean_token_accuracy": 0.9667319059371948,
+    "epoch": 0.673,
+    "step": 673
   },
   {
-    "loss": 0.1082,
-    "grad_norm": 2.1547534465789795,
+    "loss": 0.0655,
+    "grad_norm": 1.1271072626113892,
     "learning_rate": 1.3290000000000002e-05,
-    "num_tokens": 227720.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.3375,
-    "step": 675
+    "num_tokens": 461152.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 0.674,
+    "step": 674
   },
   {
-    "loss": 0.0724,
-    "grad_norm": 1.5310810804367065,
+    "loss": 0.0129,
+    "grad_norm": 1.9966233968734741,
     "learning_rate": 1.3280000000000002e-05,
-    "num_tokens": 228232.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.338,
-    "step": 676
+    "num_tokens": 461334.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.675,
+    "step": 675
   },
   {
-    "loss": 0.1319,
-    "grad_norm": 3.544659376144409,
+    "loss": 0.0124,
+    "grad_norm": 1.8515944480895996,
     "learning_rate": 1.327e-05,
-    "num_tokens": 228744.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.3385,
-    "step": 677
+    "num_tokens": 461516.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.676,
+    "step": 676
   },
   {
-    "loss": 0.0668,
-    "grad_norm": 1.4902386665344238,
+    "loss": 0.0545,
+    "grad_norm": 0.946265697479248,
     "learning_rate": 1.3260000000000002e-05,
-    "num_tokens": 229256.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.339,
-    "step": 678
+    "num_tokens": 462540.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.677,
+    "step": 677
   },
   {
-    "loss": 0.0099,
-    "grad_norm": 1.8921332359313965,
+    "loss": 0.0484,
+    "grad_norm": 1.0001753568649292,
     "learning_rate": 1.325e-05,
-    "num_tokens": 229347.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.3395,
-    "step": 679
+    "num_tokens": 463143.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.678,
+    "step": 678
   },
   {
-    "loss": 0.0093,
-    "grad_norm": 1.8240478038787842,
+    "loss": 0.0078,
+    "grad_norm": 1.164751648902893,
     "learning_rate": 1.3240000000000002e-05,
-    "num_tokens": 229438.0,
+    "num_tokens": 463325.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.34,
-    "step": 680
+    "epoch": 0.679,
+    "step": 679
   },
   {
-    "loss": 0.0727,
-    "grad_norm": 1.3348301649093628,
+    "loss": 0.0725,
+    "grad_norm": 1.3081203699111938,
     "learning_rate": 1.323e-05,
-    "num_tokens": 229950.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.3405,
-    "step": 681
+    "num_tokens": 464349.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 0.68,
+    "step": 680
   },
   {
-    "loss": 0.082,
-    "grad_norm": 1.235790491104126,
+    "loss": 0.0404,
+    "grad_norm": 0.8555117845535278,
     "learning_rate": 1.3220000000000002e-05,
-    "num_tokens": 230462.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.341,
-    "step": 682
+    "num_tokens": 464952.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.681,
+    "step": 681
   },
   {
-    "loss": 0.0743,
-    "grad_norm": 1.6094404458999634,
+    "loss": 0.0046,
+    "grad_norm": 0.5416426062583923,
     "learning_rate": 1.321e-05,
-    "num_tokens": 230974.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.3415,
-    "step": 683
+    "num_tokens": 465134.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.682,
+    "step": 682
   },
   {
-    "loss": 0.0079,
-    "grad_norm": 1.5763838291168213,
+    "loss": 0.0576,
+    "grad_norm": 1.0527853965759277,
     "learning_rate": 1.3200000000000002e-05,
-    "num_tokens": 231065.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.342,
-    "step": 684
+    "num_tokens": 466158.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.683,
+    "step": 683
   },
   {
-    "loss": 0.0882,
-    "grad_norm": 1.602766513824463,
+    "loss": 0.0564,
+    "grad_norm": 0.8705971837043762,
     "learning_rate": 1.319e-05,
-    "num_tokens": 231577.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.3425,
-    "step": 685
+    "num_tokens": 466761.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.684,
+    "step": 684
   },
   {
-    "loss": 0.0654,
-    "grad_norm": 1.5263670682907104,
+    "loss": 0.0536,
+    "grad_norm": 1.1689633131027222,
     "learning_rate": 1.3180000000000001e-05,
-    "num_tokens": 232089.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.343,
-    "step": 686
+    "num_tokens": 467364.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.685,
+    "step": 685
   },
   {
-    "loss": 0.0678,
-    "grad_norm": 1.2824158668518066,
+    "loss": 0.0445,
+    "grad_norm": 1.2486073970794678,
     "learning_rate": 1.3170000000000001e-05,
-    "num_tokens": 232601.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.3435,
-    "step": 687
+    "num_tokens": 468388.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 0.686,
+    "step": 686
   },
   {
-    "loss": 0.1246,
-    "grad_norm": 2.722593307495117,
+    "loss": 0.0662,
+    "grad_norm": 1.1041734218597412,
     "learning_rate": 1.3160000000000001e-05,
-    "num_tokens": 233113.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.344,
-    "step": 688
+    "num_tokens": 469412.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.687,
+    "step": 687
   },
   {
-    "loss": 0.0428,
-    "grad_norm": 1.1944324970245361,
+    "loss": 0.0536,
+    "grad_norm": 0.8892203569412231,
     "learning_rate": 1.3150000000000001e-05,
-    "num_tokens": 233625.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.3445,
-    "step": 689
+    "num_tokens": 470015.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.688,
+    "step": 688
   },
   {
-    "loss": 0.0643,
-    "grad_norm": 1.0645701885223389,
+    "loss": 0.072,
+    "grad_norm": 1.2102046012878418,
     "learning_rate": 1.3140000000000001e-05,
-    "num_tokens": 234137.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.345,
-    "step": 690
+    "num_tokens": 471039.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 0.689,
+    "step": 689
   },
   {
-    "loss": 0.0061,
-    "grad_norm": 1.2870023250579834,
+    "loss": 0.0814,
+    "grad_norm": 1.2888877391815186,
     "learning_rate": 1.3130000000000001e-05,
-    "num_tokens": 234228.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3455,
-    "step": 691
+    "num_tokens": 471642.0,
+    "mean_token_accuracy": 0.9667221307754517,
+    "epoch": 0.69,
+    "step": 690
   },
   {
-    "loss": 0.0055,
-    "grad_norm": 1.1952035427093506,
+    "loss": 0.0795,
+    "grad_norm": 1.6404471397399902,
     "learning_rate": 1.3120000000000001e-05,
-    "num_tokens": 234319.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.346,
-    "step": 692
+    "num_tokens": 472245.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.691,
+    "step": 691
   },
   {
-    "loss": 0.0621,
-    "grad_norm": 1.063179850578308,
+    "loss": 0.0651,
+    "grad_norm": 0.8605929613113403,
     "learning_rate": 1.311e-05,
-    "num_tokens": 234831.0,
+    "num_tokens": 473269.0,
     "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.3465,
-    "step": 693
+    "epoch": 0.692,
+    "step": 692
   },
   {
-    "loss": 0.0047,
-    "grad_norm": 0.9894086122512817,
+    "loss": 0.2317,
+    "grad_norm": 4.306615352630615,
     "learning_rate": 1.3100000000000002e-05,
-    "num_tokens": 234922.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.347,
-    "step": 694
+    "num_tokens": 473872.0,
+    "mean_token_accuracy": 0.9367720484733582,
+    "epoch": 0.693,
+    "step": 693
   },
   {
-    "loss": 0.0763,
-    "grad_norm": 1.4259341955184937,
+    "loss": 0.0175,
+    "grad_norm": 4.539740085601807,
     "learning_rate": 1.309e-05,
-    "num_tokens": 235434.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.3475,
-    "step": 695
+    "num_tokens": 474054.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.694,
+    "step": 694
   },
   {
-    "loss": 0.0642,
-    "grad_norm": 1.2943477630615234,
+    "loss": 0.0188,
+    "grad_norm": 4.633057594299316,
     "learning_rate": 1.3080000000000002e-05,
-    "num_tokens": 235946.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.348,
-    "step": 696
+    "num_tokens": 474236.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.695,
+    "step": 695
   },
   {
-    "loss": 0.079,
-    "grad_norm": 1.5152034759521484,
+    "loss": 0.0829,
+    "grad_norm": 1.670581340789795,
     "learning_rate": 1.307e-05,
-    "num_tokens": 236458.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.3485,
-    "step": 697
+    "num_tokens": 474839.0,
+    "mean_token_accuracy": 0.9667221307754517,
+    "epoch": 0.696,
+    "step": 696
   },
   {
-    "loss": 0.0717,
-    "grad_norm": 1.1957803964614868,
+    "loss": 0.033,
+    "grad_norm": 0.8580129742622375,
     "learning_rate": 1.3060000000000002e-05,
-    "num_tokens": 236970.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.349,
-    "step": 698
+    "num_tokens": 475442.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 0.697,
+    "step": 697
   },
   {
-    "loss": 0.0599,
-    "grad_norm": 1.4417110681533813,
+    "loss": 0.06,
+    "grad_norm": 0.9854735732078552,
     "learning_rate": 1.305e-05,
-    "num_tokens": 237482.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.3495,
-    "step": 699
+    "num_tokens": 476466.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.698,
+    "step": 698
   },
   {
-    "loss": 0.0654,
-    "grad_norm": 1.5242059230804443,
+    "loss": 0.0623,
+    "grad_norm": 1.267706036567688,
     "learning_rate": 1.3040000000000002e-05,
-    "num_tokens": 237994.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.35,
-    "step": 700
+    "num_tokens": 477069.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.699,
+    "step": 699
   },
   {
-    "loss": 0.0365,
-    "grad_norm": 1.1553280353546143,
+    "loss": 0.0731,
+    "grad_norm": 1.2111179828643799,
     "learning_rate": 1.303e-05,
-    "num_tokens": 238506.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.3505,
-    "step": 701
+    "num_tokens": 477672.0,
+    "mean_token_accuracy": 0.9650582075119019,
+    "epoch": 0.7,
+    "step": 700
   },
   {
-    "loss": 0.0045,
-    "grad_norm": 0.8679006695747375,
+    "loss": 0.0571,
+    "grad_norm": 0.7638604044914246,
     "learning_rate": 1.302e-05,
-    "num_tokens": 238597.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.351,
-    "step": 702
+    "num_tokens": 478696.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.701,
+    "step": 701
   },
   {
-    "loss": 0.0782,
-    "grad_norm": 1.3552151918411255,
+    "loss": 0.0524,
+    "grad_norm": 0.9293149709701538,
     "learning_rate": 1.301e-05,
-    "num_tokens": 239109.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.3515,
-    "step": 703
+    "num_tokens": 479299.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.702,
+    "step": 702
   },
   {
-    "loss": 0.0777,
-    "grad_norm": 1.6802747249603271,
+    "loss": 0.0493,
+    "grad_norm": 0.7328387498855591,
     "learning_rate": 1.3000000000000001e-05,
-    "num_tokens": 239621.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.352,
-    "step": 704
+    "num_tokens": 480323.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 0.703,
+    "step": 703
   },
   {
-    "loss": 0.0895,
-    "grad_norm": 2.0004899501800537,
+    "loss": 0.0505,
+    "grad_norm": 0.7699645757675171,
     "learning_rate": 1.2990000000000001e-05,
-    "num_tokens": 240133.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.3525,
-    "step": 705
+    "num_tokens": 481347.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.704,
+    "step": 704
   },
   {
-    "loss": 0.0065,
-    "grad_norm": 1.2331161499023438,
+    "loss": 0.0641,
+    "grad_norm": 0.9049856066703796,
     "learning_rate": 1.2980000000000001e-05,
-    "num_tokens": 240224.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.353,
-    "step": 706
+    "num_tokens": 482371.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.705,
+    "step": 705
   },
   {
-    "loss": 0.0926,
-    "grad_norm": 1.814571738243103,
+    "loss": 0.0556,
+    "grad_norm": 0.9629088640213013,
     "learning_rate": 1.2970000000000001e-05,
-    "num_tokens": 240736.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.3535,
-    "step": 707
+    "num_tokens": 482974.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.706,
+    "step": 706
   },
   {
-    "loss": 0.0447,
-    "grad_norm": 1.2055951356887817,
+    "loss": 0.0575,
+    "grad_norm": 0.9650252461433411,
     "learning_rate": 1.2960000000000001e-05,
-    "num_tokens": 241248.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.354,
-    "step": 708
+    "num_tokens": 483577.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.707,
+    "step": 707
   },
   {
-    "loss": 0.1061,
-    "grad_norm": 1.93771493434906,
+    "loss": 0.0757,
+    "grad_norm": 0.934861421585083,
     "learning_rate": 1.295e-05,
-    "num_tokens": 241760.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.3545,
-    "step": 709
+    "num_tokens": 484601.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 0.708,
+    "step": 708
   },
   {
-    "loss": 0.0071,
-    "grad_norm": 1.3096961975097656,
+    "loss": 0.055,
+    "grad_norm": 1.0304492712020874,
     "learning_rate": 1.2940000000000001e-05,
-    "num_tokens": 241851.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.355,
-    "step": 710
+    "num_tokens": 485204.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.709,
+    "step": 709
   },
   {
-    "loss": 0.0809,
-    "grad_norm": 1.462066650390625,
+    "loss": 0.0472,
+    "grad_norm": 0.9187700748443604,
     "learning_rate": 1.293e-05,
-    "num_tokens": 242363.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.3555,
-    "step": 711
+    "num_tokens": 485807.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.71,
+    "step": 710
   },
   {
-    "loss": 0.0696,
-    "grad_norm": 1.6013977527618408,
+    "loss": 0.0487,
+    "grad_norm": 0.7827608585357666,
     "learning_rate": 1.2920000000000002e-05,
-    "num_tokens": 242875.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.356,
-    "step": 712
+    "num_tokens": 486410.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.711,
+    "step": 711
   },
   {
-    "loss": 0.0067,
-    "grad_norm": 1.247151494026184,
+    "loss": 0.0594,
+    "grad_norm": 0.8399698138237,
     "learning_rate": 1.291e-05,
-    "num_tokens": 242966.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3565,
-    "step": 713
+    "num_tokens": 487434.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 0.712,
+    "step": 712
   },
   {
-    "loss": 0.0822,
-    "grad_norm": 1.3341907262802124,
+    "loss": 0.0557,
+    "grad_norm": 1.0209884643554688,
     "learning_rate": 1.2900000000000002e-05,
-    "num_tokens": 243478.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.357,
-    "step": 714
+    "num_tokens": 488458.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.713,
+    "step": 713
   },
   {
-    "loss": 0.1516,
-    "grad_norm": 2.655081033706665,
+    "loss": 0.0145,
+    "grad_norm": 2.2941842079162598,
     "learning_rate": 1.289e-05,
-    "num_tokens": 243990.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.3575,
-    "step": 715
+    "num_tokens": 488640.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.714,
+    "step": 714
   },
   {
-    "loss": 0.0628,
-    "grad_norm": 1.1444809436798096,
+    "loss": 0.0603,
+    "grad_norm": 0.9182419776916504,
     "learning_rate": 1.2880000000000002e-05,
-    "num_tokens": 244502.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.358,
-    "step": 716
+    "num_tokens": 489664.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.715,
+    "step": 715
   },
   {
-    "loss": 0.0731,
-    "grad_norm": 1.465855598449707,
+    "loss": 0.0141,
+    "grad_norm": 2.3380424976348877,
     "learning_rate": 1.287e-05,
-    "num_tokens": 245014.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.3585,
-    "step": 717
+    "num_tokens": 489846.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.716,
+    "step": 716
   },
   {
-    "loss": 0.0057,
-    "grad_norm": 1.112541913986206,
+    "loss": 0.0122,
+    "grad_norm": 2.0624377727508545,
     "learning_rate": 1.286e-05,
-    "num_tokens": 245105.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.359,
-    "step": 718
+    "num_tokens": 490028.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.717,
+    "step": 717
   },
   {
-    "loss": 0.1399,
-    "grad_norm": 3.088876485824585,
+    "loss": 0.0518,
+    "grad_norm": 1.0140818357467651,
     "learning_rate": 1.285e-05,
-    "num_tokens": 245617.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.3595,
-    "step": 719
+    "num_tokens": 490631.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.718,
+    "step": 718
   },
   {
-    "loss": 0.0759,
-    "grad_norm": 1.2233434915542603,
+    "loss": 0.059,
+    "grad_norm": 1.5269079208374023,
     "learning_rate": 1.284e-05,
-    "num_tokens": 246129.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.36,
-    "step": 720
+    "num_tokens": 491234.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.719,
+    "step": 719
   },
   {
-    "loss": 0.0557,
-    "grad_norm": 1.2852802276611328,
+    "loss": 0.0385,
+    "grad_norm": 0.9199709892272949,
     "learning_rate": 1.283e-05,
-    "num_tokens": 246641.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.3605,
-    "step": 721
+    "num_tokens": 491837.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.72,
+    "step": 720
   },
   {
-    "loss": 0.005,
-    "grad_norm": 1.0076061487197876,
+    "loss": 0.0346,
+    "grad_norm": 0.9498630166053772,
     "learning_rate": 1.2820000000000001e-05,
-    "num_tokens": 246732.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.361,
-    "step": 722
+    "num_tokens": 492440.0,
+    "mean_token_accuracy": 0.9900166392326355,
+    "epoch": 0.721,
+    "step": 721
   },
   {
-    "loss": 0.0549,
-    "grad_norm": 1.230972409248352,
+    "loss": 0.0387,
+    "grad_norm": 1.0423791408538818,
     "learning_rate": 1.2810000000000001e-05,
-    "num_tokens": 247244.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.3615,
-    "step": 723
+    "num_tokens": 493043.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.722,
+    "step": 722
   },
   {
-    "loss": 0.004,
-    "grad_norm": 0.7870916724205017,
+    "loss": 0.0561,
+    "grad_norm": 1.3060035705566406,
     "learning_rate": 1.2800000000000001e-05,
-    "num_tokens": 247335.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.362,
-    "step": 724
+    "num_tokens": 493646.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.723,
+    "step": 723
   },
   {
-    "loss": 0.0034,
-    "grad_norm": 0.6174665093421936,
+    "loss": 0.0598,
+    "grad_norm": 1.1314760446548462,
     "learning_rate": 1.279e-05,
-    "num_tokens": 247426.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3625,
-    "step": 725
+    "num_tokens": 494249.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.724,
+    "step": 724
   },
   {
-    "loss": 0.5346,
-    "grad_norm": 9.506900787353516,
+    "loss": 0.0051,
+    "grad_norm": 0.840337872505188,
     "learning_rate": 1.2780000000000001e-05,
-    "num_tokens": 247938.0,
-    "mean_token_accuracy": 0.9001957178115845,
-    "epoch": 0.363,
-    "step": 726
+    "num_tokens": 494431.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.725,
+    "step": 725
   },
   {
-    "loss": 0.0627,
-    "grad_norm": 1.454014539718628,
+    "loss": 0.0049,
+    "grad_norm": 0.8124201893806458,
     "learning_rate": 1.277e-05,
-    "num_tokens": 248450.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.3635,
-    "step": 727
+    "num_tokens": 494613.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.726,
+    "step": 726
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.3459113836288452,
+    "loss": 0.0388,
+    "grad_norm": 1.1167151927947998,
     "learning_rate": 1.2760000000000001e-05,
-    "num_tokens": 248541.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.364,
-    "step": 728
+    "num_tokens": 495216.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.727,
+    "step": 727
   },
   {
-    "loss": 0.0775,
-    "grad_norm": 1.3046914339065552,
+    "loss": 0.0436,
+    "grad_norm": 1.271494746208191,
     "learning_rate": 1.275e-05,
-    "num_tokens": 249053.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.3645,
-    "step": 729
+    "num_tokens": 495819.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.728,
+    "step": 728
   },
   {
-    "loss": 0.0528,
-    "grad_norm": 1.3675225973129272,
+    "loss": 0.0375,
+    "grad_norm": 0.8926107883453369,
     "learning_rate": 1.2740000000000002e-05,
-    "num_tokens": 249565.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.365,
-    "step": 730
+    "num_tokens": 496422.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.729,
+    "step": 729
   },
   {
-    "loss": 0.0629,
-    "grad_norm": 1.5410852432250977,
+    "loss": 0.0036,
+    "grad_norm": 0.5271093249320984,
     "learning_rate": 1.273e-05,
-    "num_tokens": 250077.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.3655,
-    "step": 731
+    "num_tokens": 496604.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.73,
+    "step": 730
   },
   {
-    "loss": 0.0579,
-    "grad_norm": 1.2241291999816895,
+    "loss": 0.0613,
+    "grad_norm": 1.239539623260498,
     "learning_rate": 1.2720000000000002e-05,
-    "num_tokens": 250589.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.366,
-    "step": 732
+    "num_tokens": 497207.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.731,
+    "step": 731
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.32806485891342163,
+    "loss": 0.0566,
+    "grad_norm": 1.033392310142517,
     "learning_rate": 1.271e-05,
-    "num_tokens": 250680.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3665,
-    "step": 733
+    "num_tokens": 498231.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.732,
+    "step": 732
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.3713594675064087,
+    "loss": 0.0562,
+    "grad_norm": 1.020779013633728,
     "learning_rate": 1.27e-05,
-    "num_tokens": 250771.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.367,
-    "step": 734
+    "num_tokens": 498834.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.733,
+    "step": 733
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.383628249168396,
+    "loss": 0.0391,
+    "grad_norm": 0.95565265417099,
     "learning_rate": 1.269e-05,
-    "num_tokens": 250862.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3675,
-    "step": 735
+    "num_tokens": 499437.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.734,
+    "step": 734
   },
   {
-    "loss": 0.0565,
-    "grad_norm": 1.4605262279510498,
+    "loss": 0.0617,
+    "grad_norm": 1.0239723920822144,
     "learning_rate": 1.268e-05,
-    "num_tokens": 251374.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.368,
-    "step": 736
+    "num_tokens": 500461.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.735,
+    "step": 735
   },
   {
-    "loss": 0.0907,
-    "grad_norm": 2.0260767936706543,
+    "loss": 0.0756,
+    "grad_norm": 1.4600635766983032,
     "learning_rate": 1.267e-05,
-    "num_tokens": 251886.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.3685,
-    "step": 737
+    "num_tokens": 501064.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.736,
+    "step": 736
   },
   {
-    "loss": 0.1355,
-    "grad_norm": 2.7483110427856445,
+    "loss": 0.0351,
+    "grad_norm": 0.7788209319114685,
     "learning_rate": 1.266e-05,
-    "num_tokens": 252398.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.369,
-    "step": 738
+    "num_tokens": 501667.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.737,
+    "step": 737
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.5287377834320068,
+    "loss": 0.0361,
+    "grad_norm": 0.8924766182899475,
     "learning_rate": 1.2650000000000001e-05,
-    "num_tokens": 252489.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3695,
-    "step": 739
+    "num_tokens": 502270.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.738,
+    "step": 738
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.5259289145469666,
+    "loss": 0.0563,
+    "grad_norm": 0.8318547606468201,
     "learning_rate": 1.2640000000000001e-05,
-    "num_tokens": 252580.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.37,
-    "step": 740
+    "num_tokens": 503294.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.739,
+    "step": 739
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.5197233557701111,
+    "loss": 0.0601,
+    "grad_norm": 0.7167434096336365,
     "learning_rate": 1.263e-05,
-    "num_tokens": 252671.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3705,
-    "step": 741
+    "num_tokens": 504318.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.74,
+    "step": 740
   },
   {
-    "loss": 0.0779,
-    "grad_norm": 1.9638550281524658,
+    "loss": 0.0716,
+    "grad_norm": 1.6360701322555542,
     "learning_rate": 1.2620000000000001e-05,
-    "num_tokens": 253183.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.371,
-    "step": 742
+    "num_tokens": 504921.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.741,
+    "step": 741
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.34271013736724854,
+    "loss": 0.053,
+    "grad_norm": 0.8519343137741089,
     "learning_rate": 1.261e-05,
-    "num_tokens": 253274.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3715,
-    "step": 743
+    "num_tokens": 505524.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.742,
+    "step": 742
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.31841135025024414,
+    "loss": 0.0143,
+    "grad_norm": 2.3694989681243896,
     "learning_rate": 1.2600000000000001e-05,
-    "num_tokens": 253365.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.372,
-    "step": 744
+    "num_tokens": 505706.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.743,
+    "step": 743
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.28541284799575806,
+    "loss": 0.0518,
+    "grad_norm": 0.7736840844154358,
     "learning_rate": 1.259e-05,
-    "num_tokens": 253456.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3725,
-    "step": 745
+    "num_tokens": 506730.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 0.744,
+    "step": 744
   },
   {
-    "loss": 0.0765,
-    "grad_norm": 1.1577314138412476,
+    "loss": 0.0136,
+    "grad_norm": 2.3100736141204834,
     "learning_rate": 1.2580000000000002e-05,
-    "num_tokens": 253968.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.373,
-    "step": 746
+    "num_tokens": 506912.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.745,
+    "step": 745
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.2100057303905487,
+    "loss": 0.077,
+    "grad_norm": 1.0608011484146118,
     "learning_rate": 1.257e-05,
-    "num_tokens": 254059.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3735,
-    "step": 747
+    "num_tokens": 507936.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 0.746,
+    "step": 746
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.19263769686222076,
+    "loss": 0.041,
+    "grad_norm": 0.8255691528320312,
     "learning_rate": 1.2560000000000002e-05,
-    "num_tokens": 254150.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.374,
-    "step": 748
+    "num_tokens": 508539.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.747,
+    "step": 747
   },
   {
-    "loss": 0.0813,
-    "grad_norm": 1.540268898010254,
+    "loss": 0.0448,
+    "grad_norm": 1.0147794485092163,
     "learning_rate": 1.255e-05,
-    "num_tokens": 254662.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.3745,
-    "step": 749
+    "num_tokens": 509563.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 0.748,
+    "step": 748
   },
   {
-    "loss": 0.0705,
-    "grad_norm": 1.2791322469711304,
+    "loss": 0.2396,
+    "grad_norm": 5.24788236618042,
     "learning_rate": 1.254e-05,
-    "num_tokens": 255174.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.375,
-    "step": 750
+    "num_tokens": 510166.0,
+    "mean_token_accuracy": 0.9467554092407227,
+    "epoch": 0.749,
+    "step": 749
   },
   {
-    "loss": 0.3907,
-    "grad_norm": 7.0182013511657715,
+    "loss": 0.06,
+    "grad_norm": 1.0772548913955688,
     "learning_rate": 1.253e-05,
-    "num_tokens": 255686.0,
-    "mean_token_accuracy": 0.9158512949943542,
-    "epoch": 0.3755,
-    "step": 751
+    "num_tokens": 511190.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.75,
+    "step": 750
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.19119806587696075,
+    "loss": 0.0329,
+    "grad_norm": 0.748359739780426,
     "learning_rate": 1.252e-05,
-    "num_tokens": 255777.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.376,
-    "step": 752
+    "num_tokens": 511793.0,
+    "mean_token_accuracy": 0.9900166392326355,
+    "epoch": 0.751,
+    "step": 751
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.18740034103393555,
+    "loss": 0.0786,
+    "grad_norm": 1.5040301084518433,
     "learning_rate": 1.251e-05,
-    "num_tokens": 255868.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3765,
-    "step": 753
+    "num_tokens": 512396.0,
+    "mean_token_accuracy": 0.9633943438529968,
+    "epoch": 0.752,
+    "step": 752
   },
   {
-    "loss": 0.0797,
-    "grad_norm": 1.8779743909835815,
+    "loss": 0.01,
+    "grad_norm": 1.7024807929992676,
     "learning_rate": 1.25e-05,
-    "num_tokens": 256380.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.377,
-    "step": 754
+    "num_tokens": 512578.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.753,
+    "step": 753
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.1861187219619751,
+    "loss": 0.0564,
+    "grad_norm": 0.9046693444252014,
     "learning_rate": 1.2490000000000002e-05,
-    "num_tokens": 256471.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3775,
-    "step": 755
+    "num_tokens": 513602.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.754,
+    "step": 754
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.17008422315120697,
+    "loss": 0.0626,
+    "grad_norm": 1.064791202545166,
     "learning_rate": 1.248e-05,
-    "num_tokens": 256562.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.378,
-    "step": 756
+    "num_tokens": 514626.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.755,
+    "step": 755
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.2042454481124878,
+    "loss": 0.0562,
+    "grad_norm": 0.962312638759613,
     "learning_rate": 1.2470000000000003e-05,
-    "num_tokens": 256653.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3785,
-    "step": 757
+    "num_tokens": 515650.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.756,
+    "step": 756
   },
   {
-    "loss": 0.083,
-    "grad_norm": 1.2712551355361938,
+    "loss": 0.037,
+    "grad_norm": 0.8026986122131348,
     "learning_rate": 1.2460000000000001e-05,
-    "num_tokens": 257165.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.379,
-    "step": 758
+    "num_tokens": 516253.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.757,
+    "step": 757
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.22894388437271118,
+    "loss": 0.0639,
+    "grad_norm": 0.8239317536354065,
     "learning_rate": 1.2450000000000003e-05,
-    "num_tokens": 257256.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3795,
-    "step": 759
+    "num_tokens": 517277.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 0.758,
+    "step": 758
   },
   {
-    "loss": 0.0632,
-    "grad_norm": 1.2945611476898193,
+    "loss": 0.0553,
+    "grad_norm": 0.874905526638031,
     "learning_rate": 1.2440000000000001e-05,
-    "num_tokens": 257768.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.38,
-    "step": 760
+    "num_tokens": 517880.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.759,
+    "step": 759
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.21884307265281677,
+    "loss": 0.0358,
+    "grad_norm": 0.9866107702255249,
     "learning_rate": 1.2430000000000001e-05,
-    "num_tokens": 257859.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3805,
-    "step": 761
+    "num_tokens": 518483.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.76,
+    "step": 760
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.22480158507823944,
+    "loss": 0.0707,
+    "grad_norm": 1.2454264163970947,
     "learning_rate": 1.2420000000000001e-05,
-    "num_tokens": 257950.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.381,
-    "step": 762
+    "num_tokens": 519507.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 0.761,
+    "step": 761
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.24674543738365173,
+    "loss": 0.0671,
+    "grad_norm": 0.9112080335617065,
     "learning_rate": 1.2410000000000001e-05,
-    "num_tokens": 258041.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3815,
-    "step": 763
+    "num_tokens": 520531.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 0.762,
+    "step": 762
   },
   {
-    "loss": 0.0795,
-    "grad_norm": 2.106468677520752,
+    "loss": 0.0288,
+    "grad_norm": 0.7277910113334656,
     "learning_rate": 1.2400000000000002e-05,
-    "num_tokens": 258553.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.382,
-    "step": 764
+    "num_tokens": 521134.0,
+    "mean_token_accuracy": 0.9883527159690857,
+    "epoch": 0.763,
+    "step": 763
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.2204350233078003,
+    "loss": 0.0507,
+    "grad_norm": 0.6795754432678223,
     "learning_rate": 1.2390000000000002e-05,
-    "num_tokens": 258644.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3825,
-    "step": 765
+    "num_tokens": 522158.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 0.764,
+    "step": 764
   },
   {
-    "loss": 0.0737,
-    "grad_norm": 1.4242573976516724,
+    "loss": 0.0626,
+    "grad_norm": 1.8835927248001099,
     "learning_rate": 1.2380000000000002e-05,
-    "num_tokens": 259156.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.383,
-    "step": 766
+    "num_tokens": 522761.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.765,
+    "step": 765
   },
   {
-    "loss": 0.0878,
-    "grad_norm": 1.518812656402588,
+    "loss": 0.0581,
+    "grad_norm": 0.9371005892753601,
     "learning_rate": 1.2370000000000002e-05,
-    "num_tokens": 259668.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.3835,
-    "step": 767
+    "num_tokens": 523364.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.766,
+    "step": 766
   },
   {
-    "loss": 0.0633,
-    "grad_norm": 1.0321228504180908,
+    "loss": 0.0159,
+    "grad_norm": 2.4912757873535156,
     "learning_rate": 1.236e-05,
-    "num_tokens": 260180.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.384,
-    "step": 768
+    "num_tokens": 523546.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.767,
+    "step": 767
   },
   {
-    "loss": 0.0756,
-    "grad_norm": 1.1949939727783203,
+    "loss": 0.0716,
+    "grad_norm": 1.2988524436950684,
     "learning_rate": 1.2350000000000002e-05,
-    "num_tokens": 260692.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.3845,
-    "step": 769
+    "num_tokens": 524570.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 0.768,
+    "step": 768
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.4306935966014862,
+    "loss": 0.0147,
+    "grad_norm": 2.4790022373199463,
     "learning_rate": 1.234e-05,
-    "num_tokens": 260783.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.385,
-    "step": 770
+    "num_tokens": 524752.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.769,
+    "step": 769
   },
   {
-    "loss": 0.0627,
-    "grad_norm": 1.1531753540039062,
+    "loss": 0.0623,
+    "grad_norm": 1.0703315734863281,
     "learning_rate": 1.2330000000000002e-05,
-    "num_tokens": 261295.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.3855,
-    "step": 771
+    "num_tokens": 525776.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.77,
+    "step": 770
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.6374348998069763,
+    "loss": 0.0545,
+    "grad_norm": 0.8702475428581238,
     "learning_rate": 1.232e-05,
-    "num_tokens": 261386.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.386,
-    "step": 772
+    "num_tokens": 526379.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.771,
+    "step": 771
   },
   {
-    "loss": 0.0036,
-    "grad_norm": 0.7683020234107971,
+    "loss": 0.0629,
+    "grad_norm": 0.907402753829956,
     "learning_rate": 1.2310000000000002e-05,
-    "num_tokens": 261477.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3865,
-    "step": 773
+    "num_tokens": 527403.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.772,
+    "step": 772
   },
   {
-    "loss": 0.1434,
-    "grad_norm": 2.3946049213409424,
+    "loss": 0.1845,
+    "grad_norm": 2.788726568222046,
     "learning_rate": 1.23e-05,
-    "num_tokens": 261989.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.387,
-    "step": 774
+    "num_tokens": 528427.0,
+    "mean_token_accuracy": 0.9520547986030579,
+    "epoch": 0.773,
+    "step": 773
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.6773089170455933,
+    "loss": 0.054,
+    "grad_norm": 0.9503142833709717,
     "learning_rate": 1.2290000000000003e-05,
-    "num_tokens": 262080.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3875,
-    "step": 775
+    "num_tokens": 529030.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.774,
+    "step": 774
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.5508646368980408,
+    "loss": 0.1536,
+    "grad_norm": 2.5461437702178955,
     "learning_rate": 1.2280000000000001e-05,
-    "num_tokens": 262171.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.388,
-    "step": 776
+    "num_tokens": 530054.0,
+    "mean_token_accuracy": 0.9520547986030579,
+    "epoch": 0.775,
+    "step": 775
   },
   {
-    "loss": 0.0517,
-    "grad_norm": 1.0663422346115112,
+    "loss": 0.0416,
+    "grad_norm": 1.0022748708724976,
     "learning_rate": 1.2270000000000001e-05,
-    "num_tokens": 262683.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.3885,
-    "step": 777
+    "num_tokens": 530657.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.776,
+    "step": 776
   },
   {
-    "loss": 0.0598,
-    "grad_norm": 1.1945189237594604,
+    "loss": 0.0325,
+    "grad_norm": 0.7322590947151184,
     "learning_rate": 1.2260000000000001e-05,
-    "num_tokens": 263195.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.389,
-    "step": 778
+    "num_tokens": 531260.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 0.777,
+    "step": 777
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.3890499174594879,
+    "loss": 0.0605,
+    "grad_norm": 1.0229724645614624,
     "learning_rate": 1.2250000000000001e-05,
-    "num_tokens": 263286.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3895,
-    "step": 779
+    "num_tokens": 531863.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.778,
+    "step": 778
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.3637482821941376,
+    "loss": 0.0553,
+    "grad_norm": 1.0746158361434937,
     "learning_rate": 1.2240000000000001e-05,
-    "num_tokens": 263377.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.39,
-    "step": 780
+    "num_tokens": 532466.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.779,
+    "step": 779
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.3558770716190338,
+    "loss": 0.055,
+    "grad_norm": 0.9289519190788269,
     "learning_rate": 1.2230000000000001e-05,
-    "num_tokens": 263468.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3905,
-    "step": 781
+    "num_tokens": 533069.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.78,
+    "step": 780
   },
   {
-    "loss": 0.0698,
-    "grad_norm": 1.282705545425415,
+    "loss": 0.0543,
+    "grad_norm": 0.7544193267822266,
     "learning_rate": 1.2220000000000002e-05,
-    "num_tokens": 263980.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.391,
-    "step": 782
+    "num_tokens": 534093.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.781,
+    "step": 781
   },
   {
-    "loss": 0.0753,
-    "grad_norm": 1.923362374305725,
+    "loss": 0.0644,
+    "grad_norm": 1.1872286796569824,
     "learning_rate": 1.2210000000000002e-05,
-    "num_tokens": 264492.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.3915,
-    "step": 783
+    "num_tokens": 534696.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 0.782,
+    "step": 782
   },
   {
-    "loss": 0.0769,
-    "grad_norm": 1.28227961063385,
+    "loss": 0.0588,
+    "grad_norm": 0.8853201866149902,
     "learning_rate": 1.22e-05,
-    "num_tokens": 265004.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.392,
-    "step": 784
+    "num_tokens": 535299.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.783,
+    "step": 783
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.26410141587257385,
+    "loss": 0.0095,
+    "grad_norm": 1.7591997385025024,
     "learning_rate": 1.2190000000000002e-05,
-    "num_tokens": 265095.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3925,
-    "step": 785
+    "num_tokens": 535481.0,
+    "mean_token_accuracy": 0.9944444298744202,
+    "epoch": 0.784,
+    "step": 784
   },
   {
-    "loss": 0.0802,
-    "grad_norm": 1.2387802600860596,
+    "loss": 0.0498,
+    "grad_norm": 0.6254715323448181,
     "learning_rate": 1.218e-05,
-    "num_tokens": 265607.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.393,
-    "step": 786
+    "num_tokens": 536505.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.785,
+    "step": 785
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.3023037612438202,
+    "loss": 0.1833,
+    "grad_norm": 3.4329724311828613,
     "learning_rate": 1.2170000000000002e-05,
-    "num_tokens": 265698.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3935,
-    "step": 787
+    "num_tokens": 537108.0,
+    "mean_token_accuracy": 0.940099835395813,
+    "epoch": 0.786,
+    "step": 786
   },
   {
-    "loss": 0.0547,
-    "grad_norm": 1.3596991300582886,
+    "loss": 0.0805,
+    "grad_norm": 1.3052853345870972,
     "learning_rate": 1.216e-05,
-    "num_tokens": 266210.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.394,
-    "step": 788
+    "num_tokens": 537711.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 0.787,
+    "step": 787
   },
   {
-    "loss": 0.0725,
-    "grad_norm": 1.2279936075210571,
+    "loss": 0.048,
+    "grad_norm": 0.8230918645858765,
     "learning_rate": 1.2150000000000002e-05,
-    "num_tokens": 266722.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.3945,
-    "step": 789
+    "num_tokens": 538314.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.788,
+    "step": 788
   },
   {
-    "loss": 0.0603,
-    "grad_norm": 1.4540890455245972,
+    "loss": 0.0531,
+    "grad_norm": 0.718222439289093,
     "learning_rate": 1.214e-05,
-    "num_tokens": 267234.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.395,
-    "step": 790
+    "num_tokens": 539338.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.789,
+    "step": 789
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.48957788944244385,
+    "loss": 0.0067,
+    "grad_norm": 1.2014926671981812,
     "learning_rate": 1.2130000000000002e-05,
-    "num_tokens": 267325.0,
+    "num_tokens": 539520.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.3955,
-    "step": 791
+    "epoch": 0.79,
+    "step": 790
   },
   {
-    "loss": 0.0771,
-    "grad_norm": 1.2322392463684082,
+    "loss": 0.0524,
+    "grad_norm": 0.9611308574676514,
     "learning_rate": 1.2120000000000001e-05,
-    "num_tokens": 267837.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.396,
-    "step": 792
+    "num_tokens": 540123.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.791,
+    "step": 791
   },
   {
-    "loss": 0.0434,
-    "grad_norm": 1.224611759185791,
+    "loss": 0.0459,
+    "grad_norm": 0.7757530212402344,
     "learning_rate": 1.2110000000000001e-05,
-    "num_tokens": 268349.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.3965,
-    "step": 793
+    "num_tokens": 540726.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.792,
+    "step": 792
   },
   {
-    "loss": 0.0034,
-    "grad_norm": 0.7317530512809753,
+    "loss": 0.0063,
+    "grad_norm": 1.0544146299362183,
     "learning_rate": 1.2100000000000001e-05,
-    "num_tokens": 268440.0,
+    "num_tokens": 540908.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.397,
-    "step": 794
+    "epoch": 0.793,
+    "step": 793
   },
   {
-    "loss": 0.0038,
-    "grad_norm": 0.7885755300521851,
+    "loss": 0.0055,
+    "grad_norm": 0.8991574645042419,
     "learning_rate": 1.2090000000000001e-05,
-    "num_tokens": 268531.0,
+    "num_tokens": 541090.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.3975,
-    "step": 795
+    "epoch": 0.794,
+    "step": 794
   },
   {
-    "loss": 0.0692,
-    "grad_norm": 1.2012921571731567,
+    "loss": 0.0391,
+    "grad_norm": 0.7629162669181824,
     "learning_rate": 1.2080000000000001e-05,
-    "num_tokens": 269043.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.398,
-    "step": 796
+    "num_tokens": 542114.0,
+    "mean_token_accuracy": 0.9843444228172302,
+    "epoch": 0.795,
+    "step": 795
   },
   {
-    "loss": 0.0036,
-    "grad_norm": 0.8018218874931335,
+    "loss": 0.0623,
+    "grad_norm": 0.9102928042411804,
     "learning_rate": 1.2070000000000001e-05,
-    "num_tokens": 269134.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.3985,
-    "step": 797
+    "num_tokens": 543138.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.796,
+    "step": 796
   },
   {
-    "loss": 0.0451,
-    "grad_norm": 1.2235223054885864,
+    "loss": 0.0033,
+    "grad_norm": 0.3725976347923279,
     "learning_rate": 1.2060000000000001e-05,
-    "num_tokens": 269646.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.399,
-    "step": 798
+    "num_tokens": 543320.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.797,
+    "step": 797
   },
   {
-    "loss": 0.0474,
-    "grad_norm": 1.2205861806869507,
+    "loss": 0.0709,
+    "grad_norm": 0.9508499503135681,
     "learning_rate": 1.2050000000000002e-05,
-    "num_tokens": 270158.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.3995,
-    "step": 799
+    "num_tokens": 544344.0,
+    "mean_token_accuracy": 0.9667319059371948,
+    "epoch": 0.798,
+    "step": 798
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.7037767767906189,
+    "loss": 0.0704,
+    "grad_norm": 1.1272201538085938,
     "learning_rate": 1.204e-05,
-    "num_tokens": 270249.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4,
-    "step": 800
+    "num_tokens": 545368.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 0.799,
+    "step": 799
   },
   {
-    "loss": 0.0518,
-    "grad_norm": 1.4091877937316895,
+    "loss": 0.0512,
+    "grad_norm": 1.284423589706421,
     "learning_rate": 1.2030000000000002e-05,
-    "num_tokens": 270761.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.4005,
-    "step": 801
+    "num_tokens": 546392.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.8,
+    "step": 800
   },
   {
-    "loss": 0.0691,
-    "grad_norm": 1.106124758720398,
+    "loss": 0.0606,
+    "grad_norm": 1.0930120944976807,
     "learning_rate": 1.202e-05,
-    "num_tokens": 271273.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.401,
-    "step": 802
+    "num_tokens": 546995.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.801,
+    "step": 801
   },
   {
-    "loss": 0.0034,
-    "grad_norm": 0.7851144075393677,
+    "loss": 0.2028,
+    "grad_norm": 2.9636154174804688,
     "learning_rate": 1.2010000000000002e-05,
-    "num_tokens": 271364.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4015,
-    "step": 803
+    "num_tokens": 547598.0,
+    "mean_token_accuracy": 0.9434276223182678,
+    "epoch": 0.802,
+    "step": 802
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.7951046824455261,
+    "loss": 0.0551,
+    "grad_norm": 0.9880566596984863,
     "learning_rate": 1.2e-05,
-    "num_tokens": 271455.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.402,
-    "step": 804
+    "num_tokens": 548201.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.803,
+    "step": 803
   },
   {
-    "loss": 0.0831,
-    "grad_norm": 1.5029832124710083,
+    "loss": 0.0741,
+    "grad_norm": 1.0149595737457275,
     "learning_rate": 1.1990000000000002e-05,
-    "num_tokens": 271967.0,
+    "num_tokens": 549225.0,
     "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.4025,
-    "step": 805
+    "epoch": 0.804,
+    "step": 804
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.5559270977973938,
+    "loss": 0.0558,
+    "grad_norm": 0.7165041565895081,
     "learning_rate": 1.198e-05,
-    "num_tokens": 272058.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.403,
-    "step": 806
+    "num_tokens": 550249.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 0.805,
+    "step": 805
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.4153921902179718,
+    "loss": 0.1578,
+    "grad_norm": 2.9387247562408447,
     "learning_rate": 1.1970000000000002e-05,
-    "num_tokens": 272149.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4035,
-    "step": 807
+    "num_tokens": 550852.0,
+    "mean_token_accuracy": 0.9517470598220825,
+    "epoch": 0.806,
+    "step": 806
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.37202781438827515,
+    "loss": 0.0072,
+    "grad_norm": 1.3342481851577759,
     "learning_rate": 1.196e-05,
-    "num_tokens": 272240.0,
+    "num_tokens": 551034.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.404,
-    "step": 808
+    "epoch": 0.807,
+    "step": 807
   },
   {
-    "loss": 0.0529,
-    "grad_norm": 1.0388691425323486,
+    "loss": 0.0518,
+    "grad_norm": 0.9258549213409424,
     "learning_rate": 1.195e-05,
-    "num_tokens": 272752.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.4045,
-    "step": 809
+    "num_tokens": 551637.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.808,
+    "step": 808
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.22652830183506012,
+    "loss": 0.0535,
+    "grad_norm": 0.812700092792511,
     "learning_rate": 1.1940000000000001e-05,
-    "num_tokens": 272843.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.405,
-    "step": 810
+    "num_tokens": 552240.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.809,
+    "step": 809
   },
   {
-    "loss": 0.0645,
-    "grad_norm": 1.505333423614502,
+    "loss": 0.0595,
+    "grad_norm": 1.1722562313079834,
     "learning_rate": 1.1930000000000001e-05,
-    "num_tokens": 273355.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.4055,
-    "step": 811
+    "num_tokens": 552843.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.81,
+    "step": 810
   },
   {
-    "loss": 0.0865,
-    "grad_norm": 1.883539080619812,
+    "loss": 0.0521,
+    "grad_norm": 0.7275489568710327,
     "learning_rate": 1.1920000000000001e-05,
-    "num_tokens": 273867.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.406,
-    "step": 812
+    "num_tokens": 553867.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 0.811,
+    "step": 811
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.16957923769950867,
+    "loss": 0.01,
+    "grad_norm": 1.7290879487991333,
     "learning_rate": 1.1910000000000001e-05,
-    "num_tokens": 273958.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4065,
-    "step": 813
+    "num_tokens": 554049.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.812,
+    "step": 812
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.19717897474765778,
+    "loss": 0.0679,
+    "grad_norm": 0.8877097368240356,
     "learning_rate": 1.1900000000000001e-05,
-    "num_tokens": 274049.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.407,
-    "step": 814
+    "num_tokens": 555073.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 0.813,
+    "step": 813
   },
   {
-    "loss": 0.0014,
-    "grad_norm": 0.1534471958875656,
+    "loss": 0.0096,
+    "grad_norm": 1.703001618385315,
     "learning_rate": 1.1890000000000001e-05,
-    "num_tokens": 274140.0,
+    "num_tokens": 555255.0,
+    "mean_token_accuracy": 0.9944444298744202,
+    "epoch": 0.814,
+    "step": 814
+  },
+  {
+    "loss": 0.0084,
+    "grad_norm": 1.508344292640686,
+    "learning_rate": 1.188e-05,
+    "num_tokens": 555437.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.4075,
+    "epoch": 0.815,
     "step": 815
   },
   {
-    "loss": 0.0494,
-    "grad_norm": 1.1535961627960205,
-    "learning_rate": 1.188e-05,
-    "num_tokens": 274652.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.408,
+    "loss": 0.0544,
+    "grad_norm": 0.9113777279853821,
+    "learning_rate": 1.1870000000000002e-05,
+    "num_tokens": 556040.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.816,
     "step": 816
   },
   {
-    "loss": 0.0014,
-    "grad_norm": 0.1624767929315567,
-    "learning_rate": 1.1870000000000002e-05,
-    "num_tokens": 274743.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4085,
+    "loss": 0.0704,
+    "grad_norm": 1.184165358543396,
+    "learning_rate": 1.186e-05,
+    "num_tokens": 556643.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.817,
     "step": 817
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.17362011969089508,
-    "learning_rate": 1.186e-05,
-    "num_tokens": 274834.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.409,
+    "loss": 0.0478,
+    "grad_norm": 0.9185481667518616,
+    "learning_rate": 1.1850000000000002e-05,
+    "num_tokens": 557246.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.818,
     "step": 818
   },
   {
-    "loss": 0.0775,
-    "grad_norm": 1.9903476238250732,
-    "learning_rate": 1.1850000000000002e-05,
-    "num_tokens": 275346.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.4095,
+    "loss": 0.0398,
+    "grad_norm": 0.9394212365150452,
+    "learning_rate": 1.184e-05,
+    "num_tokens": 557849.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.819,
     "step": 819
   },
   {
-    "loss": 0.1399,
-    "grad_norm": 3.302823781967163,
-    "learning_rate": 1.184e-05,
-    "num_tokens": 275858.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.41,
+    "loss": 0.0529,
+    "grad_norm": 0.9966578483581543,
+    "learning_rate": 1.1830000000000002e-05,
+    "num_tokens": 558873.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.82,
     "step": 820
   },
   {
-    "loss": 0.0673,
-    "grad_norm": 1.326196312904358,
-    "learning_rate": 1.1830000000000002e-05,
-    "num_tokens": 276370.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.4105,
+    "loss": 0.0553,
+    "grad_norm": 0.995188295841217,
+    "learning_rate": 1.182e-05,
+    "num_tokens": 559897.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.821,
     "step": 821
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.18564815819263458,
-    "learning_rate": 1.182e-05,
-    "num_tokens": 276461.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.411,
+    "loss": 0.0605,
+    "grad_norm": 1.2694830894470215,
+    "learning_rate": 1.1810000000000002e-05,
+    "num_tokens": 560921.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.822,
     "step": 822
   },
   {
-    "loss": 0.0548,
-    "grad_norm": 1.438742756843567,
-    "learning_rate": 1.1810000000000002e-05,
-    "num_tokens": 276973.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.4115,
+    "loss": 0.0582,
+    "grad_norm": 0.8434872627258301,
+    "learning_rate": 1.18e-05,
+    "num_tokens": 561945.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.823,
     "step": 823
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.23712487518787384,
-    "learning_rate": 1.18e-05,
-    "num_tokens": 277064.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.412,
+    "loss": 0.0457,
+    "grad_norm": 0.8467468023300171,
+    "learning_rate": 1.179e-05,
+    "num_tokens": 562548.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.824,
     "step": 824
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.27533257007598877,
-    "learning_rate": 1.179e-05,
-    "num_tokens": 277155.0,
+    "loss": 0.0063,
+    "grad_norm": 1.0665810108184814,
+    "learning_rate": 1.178e-05,
+    "num_tokens": 562730.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.4125,
+    "epoch": 0.825,
     "step": 825
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.2764306366443634,
-    "learning_rate": 1.178e-05,
-    "num_tokens": 277246.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.413,
+    "loss": 0.0566,
+    "grad_norm": 0.9971085786819458,
+    "learning_rate": 1.177e-05,
+    "num_tokens": 563333.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.826,
     "step": 826
   },
   {
-    "loss": 0.0513,
-    "grad_norm": 1.2485377788543701,
-    "learning_rate": 1.177e-05,
-    "num_tokens": 277758.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.4135,
+    "loss": 0.0492,
+    "grad_norm": 0.831574559211731,
+    "learning_rate": 1.1760000000000001e-05,
+    "num_tokens": 564357.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.827,
     "step": 827
   },
   {
-    "loss": 0.143,
-    "grad_norm": 2.3260533809661865,
-    "learning_rate": 1.1760000000000001e-05,
-    "num_tokens": 278270.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.414,
+    "loss": 0.0534,
+    "grad_norm": 1.0245475769042969,
+    "learning_rate": 1.1750000000000001e-05,
+    "num_tokens": 565381.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.828,
     "step": 828
   },
   {
-    "loss": 0.0865,
-    "grad_norm": 2.006594181060791,
-    "learning_rate": 1.1750000000000001e-05,
-    "num_tokens": 278782.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.4145,
+    "loss": 0.0541,
+    "grad_norm": 0.9119972586631775,
+    "learning_rate": 1.1740000000000001e-05,
+    "num_tokens": 565984.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.829,
     "step": 829
   },
   {
-    "loss": 0.0728,
-    "grad_norm": 1.229394793510437,
-    "learning_rate": 1.1740000000000001e-05,
-    "num_tokens": 279294.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.415,
+    "loss": 0.0082,
+    "grad_norm": 1.4160255193710327,
+    "learning_rate": 1.1730000000000001e-05,
+    "num_tokens": 566166.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.83,
     "step": 830
   },
   {
-    "loss": 0.0727,
-    "grad_norm": 1.264754295349121,
-    "learning_rate": 1.1730000000000001e-05,
-    "num_tokens": 279806.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.4155,
+    "loss": 0.0346,
+    "grad_norm": 0.6937861442565918,
+    "learning_rate": 1.172e-05,
+    "num_tokens": 566769.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.831,
     "step": 831
   },
   {
-    "loss": 0.0624,
-    "grad_norm": 1.1297813653945923,
-    "learning_rate": 1.172e-05,
-    "num_tokens": 280318.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.416,
+    "loss": 0.0526,
+    "grad_norm": 0.8763881921768188,
+    "learning_rate": 1.1710000000000001e-05,
+    "num_tokens": 567793.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.832,
     "step": 832
   },
   {
-    "loss": 0.0657,
-    "grad_norm": 1.348644495010376,
-    "learning_rate": 1.1710000000000001e-05,
-    "num_tokens": 280830.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.4165,
+    "loss": 0.0552,
+    "grad_norm": 0.975339949131012,
+    "learning_rate": 1.17e-05,
+    "num_tokens": 568396.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.833,
     "step": 833
   },
   {
-    "loss": 0.4017,
-    "grad_norm": 7.936118125915527,
-    "learning_rate": 1.17e-05,
-    "num_tokens": 281342.0,
-    "mean_token_accuracy": 0.9119373559951782,
-    "epoch": 0.417,
+    "loss": 0.0555,
+    "grad_norm": 0.7523898482322693,
+    "learning_rate": 1.1690000000000002e-05,
+    "num_tokens": 568999.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.834,
     "step": 834
   },
   {
-    "loss": 0.0509,
-    "grad_norm": 2.504011392593384,
-    "learning_rate": 1.1690000000000002e-05,
-    "num_tokens": 281854.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.4175,
+    "loss": 0.0549,
+    "grad_norm": 0.8790054321289062,
+    "learning_rate": 1.168e-05,
+    "num_tokens": 570023.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.835,
     "step": 835
   },
   {
-    "loss": 0.0071,
-    "grad_norm": 1.4856328964233398,
-    "learning_rate": 1.168e-05,
-    "num_tokens": 281945.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.418,
+    "loss": 0.0624,
+    "grad_norm": 1.2932872772216797,
+    "learning_rate": 1.1670000000000002e-05,
+    "num_tokens": 570626.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.836,
     "step": 836
   },
   {
-    "loss": 0.0065,
-    "grad_norm": 1.3074718713760376,
-    "learning_rate": 1.1670000000000002e-05,
-    "num_tokens": 282036.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4185,
+    "loss": 0.0472,
+    "grad_norm": 0.7312279343605042,
+    "learning_rate": 1.166e-05,
+    "num_tokens": 571650.0,
+    "mean_token_accuracy": 0.9823874831199646,
+    "epoch": 0.837,
     "step": 837
   },
   {
-    "loss": 0.0064,
-    "grad_norm": 1.328763484954834,
-    "learning_rate": 1.166e-05,
-    "num_tokens": 282127.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.419,
+    "loss": 0.0392,
+    "grad_norm": 0.7702077627182007,
+    "learning_rate": 1.1650000000000002e-05,
+    "num_tokens": 572674.0,
+    "mean_token_accuracy": 0.9833659529685974,
+    "epoch": 0.838,
     "step": 838
   },
   {
-    "loss": 0.0545,
-    "grad_norm": 1.255282998085022,
-    "learning_rate": 1.1650000000000002e-05,
-    "num_tokens": 282639.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.4195,
+    "loss": 0.0126,
+    "grad_norm": 1.9679837226867676,
+    "learning_rate": 1.164e-05,
+    "num_tokens": 572856.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.839,
     "step": 839
   },
   {
-    "loss": 0.1362,
-    "grad_norm": 1.9963600635528564,
-    "learning_rate": 1.164e-05,
-    "num_tokens": 283151.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.42,
+    "loss": 0.0523,
+    "grad_norm": 0.7391607165336609,
+    "learning_rate": 1.163e-05,
+    "num_tokens": 573880.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.84,
     "step": 840
   },
   {
-    "loss": 0.0042,
-    "grad_norm": 0.8505628108978271,
-    "learning_rate": 1.163e-05,
-    "num_tokens": 283242.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4205,
+    "loss": 0.0423,
+    "grad_norm": 0.6933834552764893,
+    "learning_rate": 1.162e-05,
+    "num_tokens": 574904.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.841,
     "step": 841
   },
   {
-    "loss": 0.0554,
-    "grad_norm": 1.5559666156768799,
-    "learning_rate": 1.162e-05,
-    "num_tokens": 283754.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.421,
+    "loss": 0.011,
+    "grad_norm": 1.7495671510696411,
+    "learning_rate": 1.161e-05,
+    "num_tokens": 575086.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.842,
     "step": 842
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.528516411781311,
-    "learning_rate": 1.161e-05,
-    "num_tokens": 283845.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4215,
+    "loss": 0.0661,
+    "grad_norm": 0.9738606810569763,
+    "learning_rate": 1.16e-05,
+    "num_tokens": 576110.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 0.843,
     "step": 843
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.40555793046951294,
-    "learning_rate": 1.16e-05,
-    "num_tokens": 283936.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.422,
+    "loss": 0.054,
+    "grad_norm": 1.1215018033981323,
+    "learning_rate": 1.159e-05,
+    "num_tokens": 576713.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.844,
     "step": 844
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3407900333404541,
-    "learning_rate": 1.159e-05,
-    "num_tokens": 284027.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4225,
+    "loss": 0.0397,
+    "grad_norm": 0.7533130645751953,
+    "learning_rate": 1.1580000000000001e-05,
+    "num_tokens": 577737.0,
+    "mean_token_accuracy": 0.9843444228172302,
+    "epoch": 0.845,
     "step": 845
   },
   {
-    "loss": 0.0726,
-    "grad_norm": 1.2919087409973145,
-    "learning_rate": 1.1580000000000001e-05,
-    "num_tokens": 284539.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.423,
+    "loss": 0.0099,
+    "grad_norm": 1.6206952333450317,
+    "learning_rate": 1.1570000000000001e-05,
+    "num_tokens": 577919.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.846,
     "step": 846
   },
   {
-    "loss": 0.4289,
-    "grad_norm": 6.98607063293457,
-    "learning_rate": 1.1570000000000001e-05,
-    "num_tokens": 285051.0,
-    "mean_token_accuracy": 0.9138942956924438,
-    "epoch": 0.4235,
+    "loss": 0.0482,
+    "grad_norm": 0.8448578119277954,
+    "learning_rate": 1.156e-05,
+    "num_tokens": 578522.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.847,
     "step": 847
   },
   {
-    "loss": 0.0511,
-    "grad_norm": 1.4350818395614624,
-    "learning_rate": 1.156e-05,
-    "num_tokens": 285563.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.424,
+    "loss": 0.0497,
+    "grad_norm": 0.9532232284545898,
+    "learning_rate": 1.1550000000000001e-05,
+    "num_tokens": 579125.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.848,
     "step": 848
   },
   {
-    "loss": 0.0519,
-    "grad_norm": 1.400582194328308,
-    "learning_rate": 1.1550000000000001e-05,
-    "num_tokens": 286075.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.4245,
+    "loss": 0.0611,
+    "grad_norm": 1.0645647048950195,
+    "learning_rate": 1.154e-05,
+    "num_tokens": 579728.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.849,
     "step": 849
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.31648895144462585,
-    "learning_rate": 1.154e-05,
-    "num_tokens": 286166.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.425,
+    "loss": 0.0487,
+    "grad_norm": 0.9649556875228882,
+    "learning_rate": 1.1530000000000001e-05,
+    "num_tokens": 580752.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.85,
     "step": 850
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.3369519114494324,
-    "learning_rate": 1.1530000000000001e-05,
-    "num_tokens": 286257.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4255,
+    "loss": 0.0355,
+    "grad_norm": 1.1456025838851929,
+    "learning_rate": 1.152e-05,
+    "num_tokens": 581355.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.851,
     "step": 851
   },
   {
-    "loss": 0.0572,
-    "grad_norm": 1.1995043754577637,
-    "learning_rate": 1.152e-05,
-    "num_tokens": 286769.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.426,
+    "loss": 0.0403,
+    "grad_norm": 0.9182752370834351,
+    "learning_rate": 1.1510000000000002e-05,
+    "num_tokens": 581958.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 0.852,
     "step": 852
   },
   {
-    "loss": 0.0742,
-    "grad_norm": 0.9991039633750916,
-    "learning_rate": 1.1510000000000002e-05,
-    "num_tokens": 287281.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.4265,
+    "loss": 0.0639,
+    "grad_norm": 1.5189045667648315,
+    "learning_rate": 1.15e-05,
+    "num_tokens": 582561.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.853,
     "step": 853
   },
   {
-    "loss": 0.0501,
-    "grad_norm": 1.4309474229812622,
-    "learning_rate": 1.15e-05,
-    "num_tokens": 287793.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.427,
+    "loss": 0.0485,
+    "grad_norm": 1.0986984968185425,
+    "learning_rate": 1.1490000000000002e-05,
+    "num_tokens": 583164.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.854,
     "step": 854
   },
   {
-    "loss": 0.1276,
-    "grad_norm": 2.5142507553100586,
-    "learning_rate": 1.1490000000000002e-05,
-    "num_tokens": 288305.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.4275,
+    "loss": 0.0487,
+    "grad_norm": 0.8655186891555786,
+    "learning_rate": 1.148e-05,
+    "num_tokens": 584188.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 0.855,
     "step": 855
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.4930354058742523,
-    "learning_rate": 1.148e-05,
-    "num_tokens": 288396.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.428,
+    "loss": 0.056,
+    "grad_norm": 0.998289167881012,
+    "learning_rate": 1.147e-05,
+    "num_tokens": 585212.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.856,
     "step": 856
   },
   {
-    "loss": 0.09,
-    "grad_norm": 1.8823350667953491,
-    "learning_rate": 1.147e-05,
-    "num_tokens": 288908.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.4285,
+    "loss": 0.0077,
+    "grad_norm": 1.1870158910751343,
+    "learning_rate": 1.146e-05,
+    "num_tokens": 585394.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.857,
     "step": 857
   },
   {
-    "loss": 0.0517,
-    "grad_norm": 1.3514404296875,
-    "learning_rate": 1.146e-05,
-    "num_tokens": 289420.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.429,
+    "loss": 0.0671,
+    "grad_norm": 1.062109112739563,
+    "learning_rate": 1.145e-05,
+    "num_tokens": 586418.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 0.858,
     "step": 858
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.39818212389945984,
-    "learning_rate": 1.145e-05,
-    "num_tokens": 289511.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4295,
+    "loss": 0.0604,
+    "grad_norm": 0.7632076144218445,
+    "learning_rate": 1.144e-05,
+    "num_tokens": 587442.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.859,
     "step": 859
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.4840705394744873,
-    "learning_rate": 1.144e-05,
-    "num_tokens": 289602.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.43,
+    "loss": 0.0504,
+    "grad_norm": 1.0189100503921509,
+    "learning_rate": 1.143e-05,
+    "num_tokens": 588466.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 0.86,
     "step": 860
   },
   {
-    "loss": 0.0551,
-    "grad_norm": 0.9981673955917358,
-    "learning_rate": 1.143e-05,
-    "num_tokens": 290114.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.4305,
+    "loss": 0.0729,
+    "grad_norm": 1.0248647928237915,
+    "learning_rate": 1.142e-05,
+    "num_tokens": 589490.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 0.861,
     "step": 861
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.43263715505599976,
-    "learning_rate": 1.142e-05,
-    "num_tokens": 290205.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.431,
+    "loss": 0.0772,
+    "grad_norm": 1.485296607017517,
+    "learning_rate": 1.1410000000000001e-05,
+    "num_tokens": 590093.0,
+    "mean_token_accuracy": 0.9633943438529968,
+    "epoch": 0.862,
     "step": 862
   },
   {
-    "loss": 0.1179,
-    "grad_norm": 2.982013463973999,
-    "learning_rate": 1.1410000000000001e-05,
-    "num_tokens": 290717.0,
-    "mean_token_accuracy": 0.9549902081489563,
-    "epoch": 0.4315,
+    "loss": 0.0457,
+    "grad_norm": 1.0928043127059937,
+    "learning_rate": 1.14e-05,
+    "num_tokens": 590696.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.863,
     "step": 863
   },
   {
-    "loss": 0.0691,
-    "grad_norm": 0.9637575745582581,
-    "learning_rate": 1.14e-05,
-    "num_tokens": 291229.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.432,
+    "loss": 0.0394,
+    "grad_norm": 0.8996139168739319,
+    "learning_rate": 1.1390000000000001e-05,
+    "num_tokens": 591299.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.864,
     "step": 864
   },
   {
-    "loss": 0.0764,
-    "grad_norm": 1.1376231908798218,
-    "learning_rate": 1.1390000000000001e-05,
-    "num_tokens": 291741.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.4325,
+    "loss": 0.0646,
+    "grad_norm": 0.981772243976593,
+    "learning_rate": 1.138e-05,
+    "num_tokens": 592323.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 0.865,
     "step": 865
   },
   {
-    "loss": 0.0474,
-    "grad_norm": 0.9938456416130066,
-    "learning_rate": 1.138e-05,
-    "num_tokens": 292253.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.433,
+    "loss": 0.0514,
+    "grad_norm": 1.0952850580215454,
+    "learning_rate": 1.1370000000000001e-05,
+    "num_tokens": 592926.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.866,
     "step": 866
   },
   {
-    "loss": 0.0036,
-    "grad_norm": 0.6827121376991272,
-    "learning_rate": 1.1370000000000001e-05,
-    "num_tokens": 292344.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4335,
+    "loss": 0.042,
+    "grad_norm": 0.9182447195053101,
+    "learning_rate": 1.136e-05,
+    "num_tokens": 593529.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.867,
     "step": 867
   },
   {
-    "loss": 0.069,
-    "grad_norm": 1.1721850633621216,
-    "learning_rate": 1.136e-05,
-    "num_tokens": 292856.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.434,
+    "loss": 0.0137,
+    "grad_norm": 1.8901221752166748,
+    "learning_rate": 1.1350000000000001e-05,
+    "num_tokens": 593711.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.868,
     "step": 868
   },
   {
-    "loss": 0.0742,
-    "grad_norm": 1.3182216882705688,
-    "learning_rate": 1.1350000000000001e-05,
-    "num_tokens": 293368.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.4345,
+    "loss": 0.0352,
+    "grad_norm": 0.8652055263519287,
+    "learning_rate": 1.134e-05,
+    "num_tokens": 594314.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.869,
     "step": 869
   },
   {
-    "loss": 0.0619,
-    "grad_norm": 1.405136227607727,
-    "learning_rate": 1.134e-05,
-    "num_tokens": 293880.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.435,
+    "loss": 0.0113,
+    "grad_norm": 1.687259316444397,
+    "learning_rate": 1.1330000000000002e-05,
+    "num_tokens": 594496.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.87,
     "step": 870
   },
   {
-    "loss": 0.0053,
-    "grad_norm": 1.0143218040466309,
-    "learning_rate": 1.1330000000000002e-05,
-    "num_tokens": 293971.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4355,
+    "loss": 0.0698,
+    "grad_norm": 0.8221616744995117,
+    "learning_rate": 1.132e-05,
+    "num_tokens": 595520.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.871,
     "step": 871
   },
   {
-    "loss": 0.0822,
-    "grad_norm": 1.4492801427841187,
-    "learning_rate": 1.132e-05,
-    "num_tokens": 294483.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.436,
+    "loss": 0.0662,
+    "grad_norm": 1.1668425798416138,
+    "learning_rate": 1.131e-05,
+    "num_tokens": 596544.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.872,
     "step": 872
   },
   {
-    "loss": 0.0518,
-    "grad_norm": 1.1326556205749512,
-    "learning_rate": 1.131e-05,
-    "num_tokens": 294995.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.4365,
+    "loss": 0.0086,
+    "grad_norm": 1.3820511102676392,
+    "learning_rate": 1.13e-05,
+    "num_tokens": 596726.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.873,
     "step": 873
   },
   {
-    "loss": 0.0059,
-    "grad_norm": 1.0942848920822144,
-    "learning_rate": 1.13e-05,
-    "num_tokens": 295086.0,
+    "loss": 0.0069,
+    "grad_norm": 1.1286393404006958,
+    "learning_rate": 1.129e-05,
+    "num_tokens": 596908.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.437,
+    "epoch": 0.874,
     "step": 874
   },
   {
-    "loss": 0.0486,
-    "grad_norm": 1.2563117742538452,
-    "learning_rate": 1.129e-05,
-    "num_tokens": 295598.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.4375,
+    "loss": 0.0482,
+    "grad_norm": 0.7835375666618347,
+    "learning_rate": 1.128e-05,
+    "num_tokens": 597511.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.875,
     "step": 875
   },
   {
-    "loss": 0.0994,
-    "grad_norm": 2.3433609008789062,
-    "learning_rate": 1.128e-05,
-    "num_tokens": 296110.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.438,
+    "loss": 0.0627,
+    "grad_norm": 0.9090060591697693,
+    "learning_rate": 1.127e-05,
+    "num_tokens": 598535.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 0.876,
     "step": 876
   },
   {
-    "loss": 0.1001,
-    "grad_norm": 2.7536284923553467,
-    "learning_rate": 1.127e-05,
-    "num_tokens": 296622.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.4385,
+    "loss": 0.0503,
+    "grad_norm": 0.902717113494873,
+    "learning_rate": 1.126e-05,
+    "num_tokens": 599559.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.877,
     "step": 877
   },
   {
-    "loss": 0.0585,
-    "grad_norm": 0.9778537154197693,
-    "learning_rate": 1.126e-05,
-    "num_tokens": 297134.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.439,
+    "loss": 0.0491,
+    "grad_norm": 1.2322841882705688,
+    "learning_rate": 1.125e-05,
+    "num_tokens": 600162.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.878,
     "step": 878
   },
   {
-    "loss": 0.0062,
-    "grad_norm": 1.1226321458816528,
-    "learning_rate": 1.125e-05,
-    "num_tokens": 297225.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4395,
+    "loss": 0.0652,
+    "grad_norm": 1.2013965845108032,
+    "learning_rate": 1.1240000000000002e-05,
+    "num_tokens": 600765.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 0.879,
     "step": 879
   },
   {
-    "loss": 0.0471,
-    "grad_norm": 1.1883548498153687,
-    "learning_rate": 1.1240000000000002e-05,
-    "num_tokens": 297737.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.44,
+    "loss": 0.054,
+    "grad_norm": 1.0098602771759033,
+    "learning_rate": 1.1230000000000001e-05,
+    "num_tokens": 601368.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.88,
     "step": 880
   },
   {
-    "loss": 0.0784,
-    "grad_norm": 1.976486086845398,
-    "learning_rate": 1.1230000000000001e-05,
-    "num_tokens": 298249.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.4405,
+    "loss": 0.0534,
+    "grad_norm": 1.5369949340820312,
+    "learning_rate": 1.1220000000000003e-05,
+    "num_tokens": 601971.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.881,
     "step": 881
   },
   {
-    "loss": 0.0701,
-    "grad_norm": 1.0843766927719116,
-    "learning_rate": 1.1220000000000003e-05,
-    "num_tokens": 298761.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.441,
+    "loss": 0.0445,
+    "grad_norm": 0.7995336055755615,
+    "learning_rate": 1.1210000000000001e-05,
+    "num_tokens": 602995.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 0.882,
     "step": 882
   },
   {
-    "loss": 0.067,
-    "grad_norm": 1.3081246614456177,
-    "learning_rate": 1.1210000000000001e-05,
-    "num_tokens": 299273.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.4415,
+    "loss": 0.0477,
+    "grad_norm": 0.907474160194397,
+    "learning_rate": 1.1200000000000001e-05,
+    "num_tokens": 603598.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.883,
     "step": 883
   },
   {
-    "loss": 0.0062,
-    "grad_norm": 1.1432628631591797,
-    "learning_rate": 1.1200000000000001e-05,
-    "num_tokens": 299364.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.442,
+    "loss": 0.0651,
+    "grad_norm": 1.6879723072052002,
+    "learning_rate": 1.1190000000000001e-05,
+    "num_tokens": 604201.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.884,
     "step": 884
   },
   {
-    "loss": 0.0415,
-    "grad_norm": 0.9637823104858398,
-    "learning_rate": 1.1190000000000001e-05,
-    "num_tokens": 299876.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.4425,
+    "loss": 0.0553,
+    "grad_norm": 0.8439010381698608,
+    "learning_rate": 1.1180000000000001e-05,
+    "num_tokens": 605225.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.885,
     "step": 885
   },
   {
-    "loss": 0.0059,
-    "grad_norm": 1.120526909828186,
-    "learning_rate": 1.1180000000000001e-05,
-    "num_tokens": 299967.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.443,
+    "loss": 0.0498,
+    "grad_norm": 0.8361995220184326,
+    "learning_rate": 1.1170000000000001e-05,
+    "num_tokens": 605828.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.886,
     "step": 886
   },
   {
-    "loss": 0.005,
-    "grad_norm": 0.9103840589523315,
-    "learning_rate": 1.1170000000000001e-05,
-    "num_tokens": 300058.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4435,
+    "loss": 0.0308,
+    "grad_norm": 0.7240535020828247,
+    "learning_rate": 1.1160000000000002e-05,
+    "num_tokens": 606431.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 0.887,
     "step": 887
   },
   {
-    "loss": 0.0696,
-    "grad_norm": 1.4037501811981201,
-    "learning_rate": 1.1160000000000002e-05,
-    "num_tokens": 300570.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.444,
+    "loss": 0.0078,
+    "grad_norm": 1.3500488996505737,
+    "learning_rate": 1.1150000000000002e-05,
+    "num_tokens": 606613.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.888,
     "step": 888
   },
   {
-    "loss": 0.0466,
-    "grad_norm": 0.9911297559738159,
-    "learning_rate": 1.1150000000000002e-05,
-    "num_tokens": 301082.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.4445,
+    "loss": 0.0609,
+    "grad_norm": 1.5635021924972534,
+    "learning_rate": 1.1140000000000002e-05,
+    "num_tokens": 607216.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.889,
     "step": 889
   },
   {
-    "loss": 0.0383,
-    "grad_norm": 0.9758827090263367,
-    "learning_rate": 1.1140000000000002e-05,
-    "num_tokens": 301594.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.445,
+    "loss": 0.0539,
+    "grad_norm": 0.8278137445449829,
+    "learning_rate": 1.113e-05,
+    "num_tokens": 608240.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.89,
     "step": 890
   },
   {
-    "loss": 0.0675,
-    "grad_norm": 1.3758506774902344,
-    "learning_rate": 1.113e-05,
-    "num_tokens": 302106.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.4455,
+    "loss": 0.0355,
+    "grad_norm": 0.7066246867179871,
+    "learning_rate": 1.1120000000000002e-05,
+    "num_tokens": 608843.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.891,
     "step": 891
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.5923029780387878,
-    "learning_rate": 1.1120000000000002e-05,
-    "num_tokens": 302197.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.446,
+    "loss": 0.0091,
+    "grad_norm": 1.524722933769226,
+    "learning_rate": 1.111e-05,
+    "num_tokens": 609025.0,
+    "mean_token_accuracy": 0.9944444298744202,
+    "epoch": 0.892,
     "step": 892
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.5734418630599976,
-    "learning_rate": 1.111e-05,
-    "num_tokens": 302288.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4465,
+    "loss": 0.0624,
+    "grad_norm": 1.1601239442825317,
+    "learning_rate": 1.1100000000000002e-05,
+    "num_tokens": 609628.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.893,
     "step": 893
   },
   {
-    "loss": 0.0533,
-    "grad_norm": 1.0125759840011597,
-    "learning_rate": 1.1100000000000002e-05,
-    "num_tokens": 302800.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.447,
+    "loss": 0.0537,
+    "grad_norm": 0.9016846418380737,
+    "learning_rate": 1.109e-05,
+    "num_tokens": 610231.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.894,
     "step": 894
   },
   {
-    "loss": 0.0738,
-    "grad_norm": 1.2687044143676758,
-    "learning_rate": 1.109e-05,
-    "num_tokens": 303312.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.4475,
+    "loss": 0.054,
+    "grad_norm": 0.905412495136261,
+    "learning_rate": 1.1080000000000002e-05,
+    "num_tokens": 610834.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.895,
     "step": 895
   },
   {
-    "loss": 0.372,
-    "grad_norm": 5.941206455230713,
-    "learning_rate": 1.1080000000000002e-05,
-    "num_tokens": 303824.0,
-    "mean_token_accuracy": 0.9236790537834167,
-    "epoch": 0.448,
+    "loss": 0.0607,
+    "grad_norm": 0.9579037427902222,
+    "learning_rate": 1.107e-05,
+    "num_tokens": 611437.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.896,
     "step": 896
   },
   {
-    "loss": 0.108,
-    "grad_norm": 2.1613714694976807,
-    "learning_rate": 1.107e-05,
-    "num_tokens": 304336.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.4485,
+    "loss": 0.0553,
+    "grad_norm": 0.9763801693916321,
+    "learning_rate": 1.1060000000000003e-05,
+    "num_tokens": 612040.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.897,
     "step": 897
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.39348432421684265,
-    "learning_rate": 1.1060000000000003e-05,
-    "num_tokens": 304427.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.449,
+    "loss": 0.0478,
+    "grad_norm": 0.8512241244316101,
+    "learning_rate": 1.1050000000000001e-05,
+    "num_tokens": 612643.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.898,
     "step": 898
   },
   {
-    "loss": 0.0639,
-    "grad_norm": 1.184023141860962,
-    "learning_rate": 1.1050000000000001e-05,
-    "num_tokens": 304939.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.4495,
+    "loss": 0.0072,
+    "grad_norm": 1.1735706329345703,
+    "learning_rate": 1.1040000000000001e-05,
+    "num_tokens": 612825.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.899,
     "step": 899
   },
   {
-    "loss": 0.0824,
-    "grad_norm": 1.9686490297317505,
-    "learning_rate": 1.1040000000000001e-05,
-    "num_tokens": 305451.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.45,
+    "loss": 0.046,
+    "grad_norm": 0.696629524230957,
+    "learning_rate": 1.1030000000000001e-05,
+    "num_tokens": 613849.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.9,
     "step": 900
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.44682711362838745,
-    "learning_rate": 1.1030000000000001e-05,
-    "num_tokens": 305542.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4505,
+    "loss": 0.0513,
+    "grad_norm": 0.9666752219200134,
+    "learning_rate": 1.1020000000000001e-05,
+    "num_tokens": 614452.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.901,
     "step": 901
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.49993517994880676,
-    "learning_rate": 1.1020000000000001e-05,
-    "num_tokens": 305633.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.451,
+    "loss": 0.0534,
+    "grad_norm": 1.0399560928344727,
+    "learning_rate": 1.1010000000000001e-05,
+    "num_tokens": 615055.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.902,
     "step": 902
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.4428325891494751,
-    "learning_rate": 1.1010000000000001e-05,
-    "num_tokens": 305724.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4515,
+    "loss": 0.0516,
+    "grad_norm": 0.8517758250236511,
+    "learning_rate": 1.1000000000000001e-05,
+    "num_tokens": 616079.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.903,
     "step": 903
   },
   {
-    "loss": 0.0709,
-    "grad_norm": 1.2466169595718384,
-    "learning_rate": 1.1000000000000001e-05,
-    "num_tokens": 306236.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.452,
+    "loss": 0.0519,
+    "grad_norm": 0.992303729057312,
+    "learning_rate": 1.0990000000000002e-05,
+    "num_tokens": 616682.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.904,
     "step": 904
   },
   {
-    "loss": 0.0735,
-    "grad_norm": 1.3401033878326416,
-    "learning_rate": 1.0990000000000002e-05,
-    "num_tokens": 306748.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.4525,
+    "loss": 0.0363,
+    "grad_norm": 0.900538444519043,
+    "learning_rate": 1.0980000000000002e-05,
+    "num_tokens": 617285.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.905,
     "step": 905
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.3811323642730713,
-    "learning_rate": 1.0980000000000002e-05,
-    "num_tokens": 306839.0,
+    "loss": 0.0059,
+    "grad_norm": 0.9594456553459167,
+    "learning_rate": 1.097e-05,
+    "num_tokens": 617467.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.453,
+    "epoch": 0.906,
     "step": 906
   },
   {
-    "loss": 0.0706,
-    "grad_norm": 1.4406594038009644,
-    "learning_rate": 1.097e-05,
-    "num_tokens": 307351.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.4535,
+    "loss": 0.0513,
+    "grad_norm": 0.7595255970954895,
+    "learning_rate": 1.0960000000000002e-05,
+    "num_tokens": 618491.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.907,
     "step": 907
   },
   {
-    "loss": 0.054,
-    "grad_norm": 1.363612413406372,
-    "learning_rate": 1.0960000000000002e-05,
-    "num_tokens": 307863.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.454,
+    "loss": 0.0553,
+    "grad_norm": 1.0218267440795898,
+    "learning_rate": 1.095e-05,
+    "num_tokens": 619515.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.908,
     "step": 908
   },
   {
-    "loss": 0.0505,
-    "grad_norm": 1.161858320236206,
-    "learning_rate": 1.095e-05,
-    "num_tokens": 308375.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.4545,
+    "loss": 0.0795,
+    "grad_norm": 2.5160579681396484,
+    "learning_rate": 1.0940000000000002e-05,
+    "num_tokens": 620118.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 0.909,
     "step": 909
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.3702404797077179,
-    "learning_rate": 1.0940000000000002e-05,
-    "num_tokens": 308466.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.455,
+    "loss": 0.0442,
+    "grad_norm": 0.8641685247421265,
+    "learning_rate": 1.093e-05,
+    "num_tokens": 620721.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.91,
     "step": 910
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.39905861020088196,
-    "learning_rate": 1.093e-05,
-    "num_tokens": 308557.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4555,
+    "loss": 0.0812,
+    "grad_norm": 2.464181661605835,
+    "learning_rate": 1.0920000000000002e-05,
+    "num_tokens": 621324.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 0.911,
     "step": 911
   },
   {
-    "loss": 0.0654,
-    "grad_norm": 1.083019733428955,
-    "learning_rate": 1.0920000000000002e-05,
-    "num_tokens": 309069.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.456,
+    "loss": 0.0555,
+    "grad_norm": 1.158937931060791,
+    "learning_rate": 1.091e-05,
+    "num_tokens": 621927.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.912,
     "step": 912
   },
   {
-    "loss": 0.0613,
-    "grad_norm": 1.1142648458480835,
-    "learning_rate": 1.091e-05,
-    "num_tokens": 309581.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.4565,
+    "loss": 0.0063,
+    "grad_norm": 1.0397167205810547,
+    "learning_rate": 1.0900000000000002e-05,
+    "num_tokens": 622109.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.913,
     "step": 913
   },
   {
-    "loss": 0.0526,
-    "grad_norm": 1.24055016040802,
-    "learning_rate": 1.0900000000000002e-05,
-    "num_tokens": 310093.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.457,
+    "loss": 0.036,
+    "grad_norm": 0.9005758166313171,
+    "learning_rate": 1.089e-05,
+    "num_tokens": 622712.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.914,
     "step": 914
   },
   {
-    "loss": 0.0687,
-    "grad_norm": 1.400773525238037,
-    "learning_rate": 1.089e-05,
-    "num_tokens": 310605.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.4575,
+    "loss": 0.0407,
+    "grad_norm": 0.800634503364563,
+    "learning_rate": 1.0880000000000001e-05,
+    "num_tokens": 623736.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 0.915,
     "step": 915
   },
   {
-    "loss": 0.0462,
-    "grad_norm": 1.1053345203399658,
-    "learning_rate": 1.0880000000000001e-05,
-    "num_tokens": 311117.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.458,
+    "loss": 0.0063,
+    "grad_norm": 1.1051758527755737,
+    "learning_rate": 1.0870000000000001e-05,
+    "num_tokens": 623918.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.916,
     "step": 916
   },
   {
-    "loss": 0.0574,
-    "grad_norm": 1.0202289819717407,
-    "learning_rate": 1.0870000000000001e-05,
-    "num_tokens": 311629.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.4585,
+    "loss": 0.0493,
+    "grad_norm": 1.1623152494430542,
+    "learning_rate": 1.0860000000000001e-05,
+    "num_tokens": 624521.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.917,
     "step": 917
   },
   {
-    "loss": 0.1215,
-    "grad_norm": 2.0495526790618896,
-    "learning_rate": 1.0860000000000001e-05,
-    "num_tokens": 312141.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.459,
+    "loss": 0.0052,
+    "grad_norm": 0.9127672910690308,
+    "learning_rate": 1.0850000000000001e-05,
+    "num_tokens": 624703.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.918,
     "step": 918
   },
   {
-    "loss": 0.0603,
-    "grad_norm": 0.9297711253166199,
-    "learning_rate": 1.0850000000000001e-05,
-    "num_tokens": 312653.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.4595,
+    "loss": 0.0441,
+    "grad_norm": 1.1386882066726685,
+    "learning_rate": 1.0840000000000001e-05,
+    "num_tokens": 625306.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.919,
     "step": 919
   },
   {
-    "loss": 0.0073,
-    "grad_norm": 1.4618480205535889,
-    "learning_rate": 1.0840000000000001e-05,
-    "num_tokens": 312744.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.46,
+    "loss": 0.0521,
+    "grad_norm": 0.9355550408363342,
+    "learning_rate": 1.0830000000000001e-05,
+    "num_tokens": 625909.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.92,
     "step": 920
   },
   {
-    "loss": 0.0491,
-    "grad_norm": 1.1468454599380493,
-    "learning_rate": 1.0830000000000001e-05,
-    "num_tokens": 313256.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.4605,
+    "loss": 0.0565,
+    "grad_norm": 0.9229368567466736,
+    "learning_rate": 1.0820000000000001e-05,
+    "num_tokens": 626512.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.921,
     "step": 921
   },
   {
-    "loss": 0.07,
-    "grad_norm": 1.5984728336334229,
-    "learning_rate": 1.0820000000000001e-05,
-    "num_tokens": 313768.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.461,
+    "loss": 0.0336,
+    "grad_norm": 0.991707444190979,
+    "learning_rate": 1.081e-05,
+    "num_tokens": 627115.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 0.922,
     "step": 922
   },
   {
-    "loss": 0.0097,
-    "grad_norm": 1.7861182689666748,
-    "learning_rate": 1.081e-05,
-    "num_tokens": 313859.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.4615,
+    "loss": 0.0531,
+    "grad_norm": 1.174130916595459,
+    "learning_rate": 1.0800000000000002e-05,
+    "num_tokens": 628139.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 0.923,
     "step": 923
   },
   {
-    "loss": 0.0098,
-    "grad_norm": 1.7681940793991089,
-    "learning_rate": 1.0800000000000002e-05,
-    "num_tokens": 313950.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.462,
+    "loss": 0.0038,
+    "grad_norm": 0.6629912257194519,
+    "learning_rate": 1.079e-05,
+    "num_tokens": 628321.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 0.924,
     "step": 924
   },
   {
-    "loss": 0.0086,
-    "grad_norm": 1.6711666584014893,
-    "learning_rate": 1.079e-05,
-    "num_tokens": 314041.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.4625,
+    "loss": 0.0546,
+    "grad_norm": 1.1083015203475952,
+    "learning_rate": 1.0780000000000002e-05,
+    "num_tokens": 628924.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.925,
     "step": 925
   },
   {
-    "loss": 0.0431,
-    "grad_norm": 1.0142930746078491,
-    "learning_rate": 1.0780000000000002e-05,
-    "num_tokens": 314553.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.463,
+    "loss": 0.0631,
+    "grad_norm": 0.8983903527259827,
+    "learning_rate": 1.077e-05,
+    "num_tokens": 629948.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 0.926,
     "step": 926
   },
   {
-    "loss": 0.0417,
-    "grad_norm": 0.9444635510444641,
-    "learning_rate": 1.077e-05,
-    "num_tokens": 315065.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.4635,
+    "loss": 0.0549,
+    "grad_norm": 1.1400083303451538,
+    "learning_rate": 1.0760000000000002e-05,
+    "num_tokens": 630551.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 0.927,
     "step": 927
   },
   {
-    "loss": 0.0054,
-    "grad_norm": 1.0890287160873413,
-    "learning_rate": 1.0760000000000002e-05,
-    "num_tokens": 315156.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.464,
+    "loss": 0.0508,
+    "grad_norm": 1.156061053276062,
+    "learning_rate": 1.075e-05,
+    "num_tokens": 631575.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.928,
     "step": 928
   },
   {
-    "loss": 0.0045,
-    "grad_norm": 0.9186440706253052,
-    "learning_rate": 1.075e-05,
-    "num_tokens": 315247.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4645,
+    "loss": 0.0489,
+    "grad_norm": 1.3074612617492676,
+    "learning_rate": 1.0740000000000002e-05,
+    "num_tokens": 632178.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.929,
     "step": 929
   },
   {
-    "loss": 0.0033,
-    "grad_norm": 0.6265022158622742,
-    "learning_rate": 1.0740000000000002e-05,
-    "num_tokens": 315338.0,
+    "loss": 0.0055,
+    "grad_norm": 1.0049898624420166,
+    "learning_rate": 1.073e-05,
+    "num_tokens": 632360.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.465,
+    "epoch": 0.93,
     "step": 930
   },
   {
-    "loss": 0.0426,
-    "grad_norm": 1.0279744863510132,
-    "learning_rate": 1.073e-05,
-    "num_tokens": 315850.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.4655,
+    "loss": 0.0341,
+    "grad_norm": 0.7812163829803467,
+    "learning_rate": 1.072e-05,
+    "num_tokens": 632963.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 0.931,
     "step": 931
   },
   {
-    "loss": 0.0693,
-    "grad_norm": 1.372605323791504,
-    "learning_rate": 1.072e-05,
-    "num_tokens": 316362.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.466,
+    "loss": 0.0517,
+    "grad_norm": 0.9627772569656372,
+    "learning_rate": 1.071e-05,
+    "num_tokens": 633566.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.932,
     "step": 932
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.21290767192840576,
-    "learning_rate": 1.071e-05,
-    "num_tokens": 316453.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4665,
+    "loss": 0.0331,
+    "grad_norm": 0.7385684251785278,
+    "learning_rate": 1.0700000000000001e-05,
+    "num_tokens": 634169.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.933,
     "step": 933
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.17253448069095612,
-    "learning_rate": 1.0700000000000001e-05,
-    "num_tokens": 316544.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.467,
+    "loss": 0.0478,
+    "grad_norm": 0.8066194653511047,
+    "learning_rate": 1.0690000000000001e-05,
+    "num_tokens": 634772.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.934,
     "step": 934
   },
   {
-    "loss": 0.0526,
-    "grad_norm": 1.160703182220459,
-    "learning_rate": 1.0690000000000001e-05,
-    "num_tokens": 317056.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.4675,
+    "loss": 0.0321,
+    "grad_norm": 0.7036237120628357,
+    "learning_rate": 1.0680000000000001e-05,
+    "num_tokens": 635375.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 0.935,
     "step": 935
   },
   {
-    "loss": 0.0727,
-    "grad_norm": 1.2380679845809937,
-    "learning_rate": 1.0680000000000001e-05,
-    "num_tokens": 317568.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.468,
+    "loss": 0.0345,
+    "grad_norm": 0.716787576675415,
+    "learning_rate": 1.0670000000000001e-05,
+    "num_tokens": 635978.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.936,
     "step": 936
   },
   {
-    "loss": 0.1214,
-    "grad_norm": 2.0913727283477783,
-    "learning_rate": 1.0670000000000001e-05,
-    "num_tokens": 318080.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.4685,
+    "loss": 0.0567,
+    "grad_norm": 0.7176898717880249,
+    "learning_rate": 1.0660000000000001e-05,
+    "num_tokens": 637002.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.937,
     "step": 937
   },
   {
-    "loss": 0.0506,
-    "grad_norm": 1.0945791006088257,
-    "learning_rate": 1.0660000000000001e-05,
-    "num_tokens": 318592.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.469,
+    "loss": 0.0513,
+    "grad_norm": 0.7790811657905579,
+    "learning_rate": 1.065e-05,
+    "num_tokens": 638026.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 0.938,
     "step": 938
   },
   {
-    "loss": 0.075,
-    "grad_norm": 1.382978916168213,
-    "learning_rate": 1.065e-05,
-    "num_tokens": 319104.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.4695,
+    "loss": 0.0338,
+    "grad_norm": 0.6591680645942688,
+    "learning_rate": 1.0640000000000001e-05,
+    "num_tokens": 638629.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 0.939,
     "step": 939
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.172458216547966,
-    "learning_rate": 1.0640000000000001e-05,
-    "num_tokens": 319195.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.47,
+    "loss": 0.0549,
+    "grad_norm": 0.9362866878509521,
+    "learning_rate": 1.063e-05,
+    "num_tokens": 639653.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.94,
     "step": 940
   },
   {
-    "loss": 0.0742,
-    "grad_norm": 1.5439574718475342,
-    "learning_rate": 1.063e-05,
-    "num_tokens": 319707.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.4705,
+    "loss": 0.011,
+    "grad_norm": 1.7603825330734253,
+    "learning_rate": 1.0620000000000002e-05,
+    "num_tokens": 639835.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.941,
     "step": 941
   },
   {
-    "loss": 0.0875,
-    "grad_norm": 1.514559030532837,
-    "learning_rate": 1.0620000000000002e-05,
-    "num_tokens": 320219.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.471,
+    "loss": 0.048,
+    "grad_norm": 0.73158860206604,
+    "learning_rate": 1.061e-05,
+    "num_tokens": 640859.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 0.942,
     "step": 942
   },
   {
-    "loss": 0.1175,
-    "grad_norm": 2.566283941268921,
-    "learning_rate": 1.061e-05,
-    "num_tokens": 320731.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.4715,
+    "loss": 0.0558,
+    "grad_norm": 1.1625018119812012,
+    "learning_rate": 1.0600000000000002e-05,
+    "num_tokens": 641462.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.943,
     "step": 943
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.22718015313148499,
-    "learning_rate": 1.0600000000000002e-05,
-    "num_tokens": 320822.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.472,
+    "loss": 0.0479,
+    "grad_norm": 0.6336035132408142,
+    "learning_rate": 1.059e-05,
+    "num_tokens": 642486.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 0.944,
     "step": 944
   },
   {
-    "loss": 0.0662,
-    "grad_norm": 1.2446449995040894,
-    "learning_rate": 1.059e-05,
-    "num_tokens": 321334.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.4725,
+    "loss": 0.0787,
+    "grad_norm": 1.3355145454406738,
+    "learning_rate": 1.0580000000000002e-05,
+    "num_tokens": 643510.0,
+    "mean_token_accuracy": 0.9618395566940308,
+    "epoch": 0.945,
     "step": 945
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.32198604941368103,
-    "learning_rate": 1.0580000000000002e-05,
-    "num_tokens": 321425.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.473,
+    "loss": 0.0557,
+    "grad_norm": 0.9856793880462646,
+    "learning_rate": 1.057e-05,
+    "num_tokens": 644534.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.946,
     "step": 946
   },
   {
-    "loss": 0.1204,
-    "grad_norm": 3.195101261138916,
-    "learning_rate": 1.057e-05,
-    "num_tokens": 321937.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.4735,
+    "loss": 0.0543,
+    "grad_norm": 0.7999506592750549,
+    "learning_rate": 1.056e-05,
+    "num_tokens": 645558.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.947,
     "step": 947
   },
   {
-    "loss": 0.0647,
-    "grad_norm": 1.3185839653015137,
-    "learning_rate": 1.056e-05,
-    "num_tokens": 322449.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.474,
+    "loss": 0.0574,
+    "grad_norm": 1.2324020862579346,
+    "learning_rate": 1.055e-05,
+    "num_tokens": 646582.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.948,
     "step": 948
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.3570478856563568,
-    "learning_rate": 1.055e-05,
-    "num_tokens": 322540.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4745,
+    "loss": 0.0597,
+    "grad_norm": 0.7820236682891846,
+    "learning_rate": 1.054e-05,
+    "num_tokens": 647606.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.949,
     "step": 949
   },
   {
-    "loss": 0.0692,
-    "grad_norm": 1.1017460823059082,
-    "learning_rate": 1.054e-05,
-    "num_tokens": 323052.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.475,
+    "loss": 0.0457,
+    "grad_norm": 0.8172613978385925,
+    "learning_rate": 1.053e-05,
+    "num_tokens": 648630.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 0.95,
     "step": 950
   },
   {
-    "loss": 0.0583,
-    "grad_norm": 1.167201042175293,
-    "learning_rate": 1.053e-05,
-    "num_tokens": 323564.0,
+    "loss": 0.0594,
+    "grad_norm": 0.7998207807540894,
+    "learning_rate": 1.0520000000000001e-05,
+    "num_tokens": 649654.0,
     "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.4755,
+    "epoch": 0.951,
     "step": 951
   },
   {
-    "loss": 0.1038,
-    "grad_norm": 2.155097723007202,
-    "learning_rate": 1.0520000000000001e-05,
-    "num_tokens": 324076.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.476,
-    "step": 952
-  },
-  {
-    "loss": 0.0038,
-    "grad_norm": 0.646456778049469,
+    "loss": 0.0392,
+    "grad_norm": 0.9326035380363464,
     "learning_rate": 1.0510000000000001e-05,
-    "num_tokens": 324167.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4765,
-    "step": 953
+    "num_tokens": 650257.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.952,
+    "step": 952
   },
   {
-    "loss": 0.0751,
-    "grad_norm": 1.3510818481445312,
+    "loss": 0.0512,
+    "grad_norm": 0.7850275635719299,
     "learning_rate": 1.0500000000000001e-05,
-    "num_tokens": 324679.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.477,
-    "step": 954
+    "num_tokens": 651281.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.953,
+    "step": 953
   },
   {
-    "loss": 0.1132,
-    "grad_norm": 2.1775286197662354,
+    "loss": 0.0176,
+    "grad_norm": 2.2797505855560303,
     "learning_rate": 1.049e-05,
-    "num_tokens": 325191.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.4775,
-    "step": 955
+    "num_tokens": 651463.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.954,
+    "step": 954
   },
   {
-    "loss": 0.1073,
-    "grad_norm": 2.2072458267211914,
+    "loss": 0.0611,
+    "grad_norm": 1.1397391557693481,
     "learning_rate": 1.0480000000000001e-05,
-    "num_tokens": 325703.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.478,
-    "step": 956
+    "num_tokens": 652487.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.955,
+    "step": 955
   },
   {
-    "loss": 0.0048,
-    "grad_norm": 0.8271514177322388,
+    "loss": 0.0452,
+    "grad_norm": 0.7332718372344971,
     "learning_rate": 1.047e-05,
-    "num_tokens": 325794.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4785,
-    "step": 957
+    "num_tokens": 653511.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.956,
+    "step": 956
   },
   {
-    "loss": 0.0679,
-    "grad_norm": 1.0402039289474487,
+    "loss": 0.1722,
+    "grad_norm": 3.8387889862060547,
     "learning_rate": 1.0460000000000001e-05,
-    "num_tokens": 326306.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.479,
-    "step": 958
+    "num_tokens": 654114.0,
+    "mean_token_accuracy": 0.9517470598220825,
+    "epoch": 0.957,
+    "step": 957
   },
   {
-    "loss": 0.0045,
-    "grad_norm": 0.7622825503349304,
+    "loss": 0.0559,
+    "grad_norm": 0.9827572703361511,
     "learning_rate": 1.045e-05,
-    "num_tokens": 326397.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4795,
-    "step": 959
+    "num_tokens": 655138.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.958,
+    "step": 958
   },
   {
-    "loss": 0.0538,
-    "grad_norm": 1.2865958213806152,
+    "loss": 0.0698,
+    "grad_norm": 2.284926414489746,
     "learning_rate": 1.0440000000000002e-05,
-    "num_tokens": 326909.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.48,
-    "step": 960
+    "num_tokens": 655741.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.959,
+    "step": 959
   },
   {
-    "loss": 0.0656,
-    "grad_norm": 1.024865746498108,
+    "loss": 0.0544,
+    "grad_norm": 0.8642245531082153,
     "learning_rate": 1.043e-05,
-    "num_tokens": 327421.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.4805,
-    "step": 961
+    "num_tokens": 656765.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.96,
+    "step": 960
   },
   {
-    "loss": 0.0039,
-    "grad_norm": 0.6565131545066833,
+    "loss": 0.057,
+    "grad_norm": 0.9453803300857544,
     "learning_rate": 1.0420000000000002e-05,
-    "num_tokens": 327512.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.481,
-    "step": 962
+    "num_tokens": 657789.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.961,
+    "step": 961
   },
   {
-    "loss": 0.0043,
-    "grad_norm": 0.7380317449569702,
+    "loss": 0.05,
+    "grad_norm": 0.7844247221946716,
     "learning_rate": 1.041e-05,
-    "num_tokens": 327603.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4815,
-    "step": 963
+    "num_tokens": 658813.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.962,
+    "step": 962
   },
   {
-    "loss": 0.0035,
-    "grad_norm": 0.570799708366394,
+    "loss": 0.1372,
+    "grad_norm": 3.7035183906555176,
     "learning_rate": 1.04e-05,
-    "num_tokens": 327694.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.482,
-    "step": 964
+    "num_tokens": 659416.0,
+    "mean_token_accuracy": 0.9584026336669922,
+    "epoch": 0.963,
+    "step": 963
   },
   {
-    "loss": 0.062,
-    "grad_norm": 1.1511563062667847,
+    "loss": 0.0488,
+    "grad_norm": 0.9842399954795837,
     "learning_rate": 1.039e-05,
-    "num_tokens": 328206.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.4825,
-    "step": 965
+    "num_tokens": 660440.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 0.964,
+    "step": 964
   },
   {
-    "loss": 0.0695,
-    "grad_norm": 1.2906415462493896,
+    "loss": 0.0537,
+    "grad_norm": 1.0709846019744873,
     "learning_rate": 1.038e-05,
-    "num_tokens": 328718.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.483,
-    "step": 966
+    "num_tokens": 661464.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.965,
+    "step": 965
   },
   {
-    "loss": 0.0468,
-    "grad_norm": 1.2258033752441406,
+    "loss": 0.0564,
+    "grad_norm": 0.7966786026954651,
     "learning_rate": 1.037e-05,
-    "num_tokens": 329230.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.4835,
-    "step": 967
+    "num_tokens": 662488.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 0.966,
+    "step": 966
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.3688075542449951,
+    "loss": 0.0537,
+    "grad_norm": 0.8567167520523071,
     "learning_rate": 1.036e-05,
-    "num_tokens": 329321.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.484,
-    "step": 968
+    "num_tokens": 663091.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.967,
+    "step": 967
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.3373582065105438,
+    "loss": 0.0517,
+    "grad_norm": 2.8711585998535156,
     "learning_rate": 1.0350000000000001e-05,
-    "num_tokens": 329412.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4845,
-    "step": 969
+    "num_tokens": 663694.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.968,
+    "step": 968
   },
   {
-    "loss": 0.0709,
-    "grad_norm": 2.084989309310913,
+    "loss": 0.0424,
+    "grad_norm": 0.7927305102348328,
     "learning_rate": 1.0340000000000001e-05,
-    "num_tokens": 329924.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.485,
-    "step": 970
+    "num_tokens": 664718.0,
+    "mean_token_accuracy": 0.9833659529685974,
+    "epoch": 0.969,
+    "step": 969
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.27264249324798584,
+    "loss": 0.0328,
+    "grad_norm": 0.7149138450622559,
     "learning_rate": 1.033e-05,
-    "num_tokens": 330015.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4855,
-    "step": 971
+    "num_tokens": 665321.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.97,
+    "step": 970
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.24489571154117584,
+    "loss": 0.0453,
+    "grad_norm": 0.9201661944389343,
     "learning_rate": 1.0320000000000001e-05,
-    "num_tokens": 330106.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.486,
-    "step": 972
+    "num_tokens": 666345.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 0.971,
+    "step": 971
   },
   {
-    "loss": 0.0799,
-    "grad_norm": 1.8190633058547974,
+    "loss": 0.0583,
+    "grad_norm": 0.7454182505607605,
     "learning_rate": 1.031e-05,
-    "num_tokens": 330618.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.4865,
-    "step": 973
+    "num_tokens": 667369.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 0.972,
+    "step": 972
   },
   {
-    "loss": 0.0836,
-    "grad_norm": 1.4041454792022705,
+    "loss": 0.0386,
+    "grad_norm": 0.864448070526123,
     "learning_rate": 1.0300000000000001e-05,
-    "num_tokens": 331130.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.487,
-    "step": 974
+    "num_tokens": 667972.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.973,
+    "step": 973
   },
   {
-    "loss": 0.1136,
-    "grad_norm": 2.274580240249634,
+    "loss": 0.0524,
+    "grad_norm": 0.653964102268219,
     "learning_rate": 1.029e-05,
-    "num_tokens": 331642.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.4875,
-    "step": 975
+    "num_tokens": 668996.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 0.974,
+    "step": 974
   },
   {
-    "loss": 0.0424,
-    "grad_norm": 1.3687119483947754,
+    "loss": 0.062,
+    "grad_norm": 0.8780527114868164,
     "learning_rate": 1.0280000000000002e-05,
-    "num_tokens": 332154.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.488,
-    "step": 976
+    "num_tokens": 670020.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 0.975,
+    "step": 975
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.16964252293109894,
+    "loss": 0.0363,
+    "grad_norm": 0.855196475982666,
     "learning_rate": 1.027e-05,
-    "num_tokens": 332245.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4885,
-    "step": 977
+    "num_tokens": 670623.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.976,
+    "step": 976
   },
   {
-    "loss": 0.0698,
-    "grad_norm": 1.1283705234527588,
+    "loss": 0.0189,
+    "grad_norm": 2.3670332431793213,
     "learning_rate": 1.0260000000000002e-05,
-    "num_tokens": 332757.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.489,
-    "step": 978
+    "num_tokens": 670805.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.977,
+    "step": 977
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.22557133436203003,
+    "loss": 0.0635,
+    "grad_norm": 1.3440663814544678,
     "learning_rate": 1.025e-05,
-    "num_tokens": 332848.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4895,
-    "step": 979
+    "num_tokens": 671408.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 0.978,
+    "step": 978
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.21104346215724945,
+    "loss": 0.0481,
+    "grad_norm": 0.8412259221076965,
     "learning_rate": 1.024e-05,
-    "num_tokens": 332939.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.49,
-    "step": 980
+    "num_tokens": 672011.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.979,
+    "step": 979
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.24475614726543427,
+    "loss": 0.0589,
+    "grad_norm": 0.7858722805976868,
     "learning_rate": 1.023e-05,
-    "num_tokens": 333030.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4905,
-    "step": 981
+    "num_tokens": 673035.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 0.98,
+    "step": 980
   },
   {
-    "loss": 0.0563,
-    "grad_norm": 2.955718755722046,
+    "loss": 0.0519,
+    "grad_norm": 0.7315422892570496,
     "learning_rate": 1.022e-05,
-    "num_tokens": 333542.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.491,
-    "step": 982
+    "num_tokens": 674059.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.981,
+    "step": 981
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.24137888848781586,
+    "loss": 0.0594,
+    "grad_norm": 1.3124761581420898,
     "learning_rate": 1.021e-05,
-    "num_tokens": 333633.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4915,
-    "step": 983
+    "num_tokens": 674662.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 0.982,
+    "step": 982
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.22060562670230865,
+    "loss": 0.0115,
+    "grad_norm": 1.7334574460983276,
     "learning_rate": 1.02e-05,
-    "num_tokens": 333724.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.492,
-    "step": 984
+    "num_tokens": 674844.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 0.983,
+    "step": 983
   },
   {
-    "loss": 0.0723,
-    "grad_norm": 1.5680960416793823,
+    "loss": 0.0559,
+    "grad_norm": 1.1707409620285034,
     "learning_rate": 1.019e-05,
-    "num_tokens": 334236.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.4925,
-    "step": 985
+    "num_tokens": 675447.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 0.984,
+    "step": 984
   },
   {
-    "loss": 0.0016,
-    "grad_norm": 0.2214270681142807,
+    "loss": 0.0339,
+    "grad_norm": 0.7773995399475098,
     "learning_rate": 1.018e-05,
-    "num_tokens": 334327.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.493,
-    "step": 986
+    "num_tokens": 676050.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.985,
+    "step": 985
   },
   {
-    "loss": 0.0016,
-    "grad_norm": 0.216565802693367,
+    "loss": 0.0557,
+    "grad_norm": 0.897598385810852,
     "learning_rate": 1.017e-05,
-    "num_tokens": 334418.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4935,
-    "step": 987
+    "num_tokens": 677074.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 0.986,
+    "step": 986
   },
   {
-    "loss": 0.0684,
-    "grad_norm": 1.214136004447937,
+    "loss": 0.0578,
+    "grad_norm": 0.9828428626060486,
     "learning_rate": 1.0160000000000001e-05,
-    "num_tokens": 334930.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.494,
-    "step": 988
+    "num_tokens": 678098.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.987,
+    "step": 987
   },
   {
-    "loss": 0.1141,
-    "grad_norm": 2.0787954330444336,
+    "loss": 0.0478,
+    "grad_norm": 0.7874612808227539,
     "learning_rate": 1.015e-05,
-    "num_tokens": 335442.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.4945,
-    "step": 989
+    "num_tokens": 679122.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 0.988,
+    "step": 988
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.1908382773399353,
+    "loss": 0.0067,
+    "grad_norm": 1.0844510793685913,
     "learning_rate": 1.0140000000000001e-05,
-    "num_tokens": 335533.0,
+    "num_tokens": 679304.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.495,
-    "step": 990
+    "epoch": 0.989,
+    "step": 989
   },
   {
-    "loss": 0.0684,
-    "grad_norm": 0.9953256845474243,
-    "learning_rate": 1.013e-05,
-    "num_tokens": 336045.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.4955,
-    "step": 991
+    "loss": 0.0463,
+    "grad_norm": 0.9287775754928589,
+    "learning_rate": 1.013e-05,
+    "num_tokens": 679907.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 0.99,
+    "step": 990
   },
   {
-    "loss": 0.1151,
-    "grad_norm": 2.989778518676758,
+    "loss": 0.0542,
+    "grad_norm": 1.1648800373077393,
     "learning_rate": 1.0120000000000001e-05,
-    "num_tokens": 336557.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.496,
-    "step": 992
+    "num_tokens": 680510.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 0.991,
+    "step": 991
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.1622181534767151,
+    "loss": 0.0594,
+    "grad_norm": 1.4217649698257446,
     "learning_rate": 1.011e-05,
-    "num_tokens": 336648.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4965,
-    "step": 993
+    "num_tokens": 681534.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 0.992,
+    "step": 992
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.19451792538166046,
+    "loss": 0.0537,
+    "grad_norm": 1.002682089805603,
     "learning_rate": 1.0100000000000002e-05,
-    "num_tokens": 336739.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.497,
-    "step": 994
+    "num_tokens": 682137.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 0.993,
+    "step": 993
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.17583484947681427,
+    "loss": 0.0303,
+    "grad_norm": 0.6803109645843506,
     "learning_rate": 1.009e-05,
-    "num_tokens": 336830.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4975,
-    "step": 995
+    "num_tokens": 682740.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.994,
+    "step": 994
   },
   {
-    "loss": 0.0971,
-    "grad_norm": 2.013803482055664,
+    "loss": 0.048,
+    "grad_norm": 0.9071928858757019,
     "learning_rate": 1.008e-05,
-    "num_tokens": 337342.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.498,
-    "step": 996
+    "num_tokens": 683764.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 0.995,
+    "step": 995
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.17960964143276215,
+    "loss": 0.0427,
+    "grad_norm": 0.9404779672622681,
     "learning_rate": 1.007e-05,
-    "num_tokens": 337433.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.4985,
-    "step": 997
+    "num_tokens": 684367.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 0.996,
+    "step": 996
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.18522843718528748,
+    "loss": 0.0597,
+    "grad_norm": 0.8706483840942383,
     "learning_rate": 1.006e-05,
-    "num_tokens": 337524.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.499,
-    "step": 998
+    "num_tokens": 685391.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 0.997,
+    "step": 997
   },
   {
-    "loss": 0.071,
-    "grad_norm": 1.612250804901123,
+    "loss": 0.0349,
+    "grad_norm": 0.7749162912368774,
     "learning_rate": 1.005e-05,
-    "num_tokens": 338036.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.4995,
-    "step": 999
+    "num_tokens": 685994.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 0.998,
+    "step": 998
   },
   {
-    "loss": 0.0789,
-    "grad_norm": 1.4309505224227905,
+    "loss": 0.0368,
+    "grad_norm": 0.8396089673042297,
     "learning_rate": 1.004e-05,
-    "num_tokens": 338548.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.5,
-    "step": 1000
+    "num_tokens": 686597.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 0.999,
+    "step": 999
   },
   {
-    "loss": 0.0749,
-    "grad_norm": 1.3195449113845825,
+    "loss": 0.0564,
+    "grad_norm": 1.237868070602417,
     "learning_rate": 1.003e-05,
-    "num_tokens": 339060.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.5005,
-    "step": 1001
+    "num_tokens": 687200.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.0,
+    "step": 1000
   },
   {
-    "loss": 0.0685,
-    "grad_norm": 2.325835943222046,
+    "loss": 0.0474,
+    "grad_norm": 0.7974348664283752,
     "learning_rate": 1.002e-05,
-    "num_tokens": 339572.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.501,
-    "step": 1002
+    "num_tokens": 687803.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.001,
+    "step": 1001
   },
   {
-    "loss": 0.0454,
-    "grad_norm": 1.1207916736602783,
+    "loss": 0.009,
+    "grad_norm": 1.6003921031951904,
     "learning_rate": 1.0009999999999999e-05,
-    "num_tokens": 340084.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.5015,
-    "step": 1003
+    "num_tokens": 687985.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.002,
+    "step": 1002
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.25914737582206726,
+    "loss": 0.01,
+    "grad_norm": 1.6830997467041016,
     "learning_rate": 1e-05,
-    "num_tokens": 340175.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.502,
-    "step": 1004
+    "num_tokens": 688167.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.003,
+    "step": 1003
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.35625582933425903,
+    "loss": 0.0509,
+    "grad_norm": 0.905796468257904,
     "learning_rate": 9.990000000000001e-06,
-    "num_tokens": 340266.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5025,
-    "step": 1005
+    "num_tokens": 688770.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.004,
+    "step": 1004
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.3242781162261963,
+    "loss": 0.0388,
+    "grad_norm": 0.7253294587135315,
     "learning_rate": 9.980000000000001e-06,
-    "num_tokens": 340357.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.503,
-    "step": 1006
+    "num_tokens": 689794.0,
+    "mean_token_accuracy": 0.9843444228172302,
+    "epoch": 1.005,
+    "step": 1005
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3145410120487213,
+    "loss": 0.0531,
+    "grad_norm": 0.8021969199180603,
     "learning_rate": 9.970000000000001e-06,
-    "num_tokens": 340448.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5035,
-    "step": 1007
+    "num_tokens": 690818.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.006,
+    "step": 1006
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.33488088846206665,
+    "loss": 0.0528,
+    "grad_norm": 0.8415541052818298,
     "learning_rate": 9.960000000000001e-06,
-    "num_tokens": 340539.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.504,
-    "step": 1008
+    "num_tokens": 691842.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.007,
+    "step": 1007
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.2918454706668854,
+    "loss": 0.0587,
+    "grad_norm": 1.1446748971939087,
     "learning_rate": 9.950000000000001e-06,
-    "num_tokens": 340630.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5045,
-    "step": 1009
+    "num_tokens": 692866.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.008,
+    "step": 1008
   },
   {
-    "loss": 0.0728,
-    "grad_norm": 1.2409576177597046,
+    "loss": 0.0604,
+    "grad_norm": 0.802824079990387,
     "learning_rate": 9.940000000000001e-06,
-    "num_tokens": 341142.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.505,
-    "step": 1010
+    "num_tokens": 693890.0,
+    "mean_token_accuracy": 0.9667319059371948,
+    "epoch": 1.009,
+    "step": 1009
   },
   {
-    "loss": 0.072,
-    "grad_norm": 1.2893600463867188,
+    "loss": 0.0381,
+    "grad_norm": 0.8150053024291992,
     "learning_rate": 9.930000000000001e-06,
-    "num_tokens": 341654.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.5055,
-    "step": 1011
+    "num_tokens": 694493.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.01,
+    "step": 1010
   },
   {
-    "loss": 0.043,
-    "grad_norm": 1.1790004968643188,
+    "loss": 0.0084,
+    "grad_norm": 1.5208303928375244,
     "learning_rate": 9.920000000000002e-06,
-    "num_tokens": 342166.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.506,
-    "step": 1012
+    "num_tokens": 694675.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.011,
+    "step": 1011
   },
   {
-    "loss": 0.0602,
-    "grad_norm": 1.1076241731643677,
+    "loss": 0.0675,
+    "grad_norm": 1.4418550729751587,
     "learning_rate": 9.91e-06,
-    "num_tokens": 342678.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.5065,
-    "step": 1013
+    "num_tokens": 695278.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.012,
+    "step": 1012
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.2319565713405609,
+    "loss": 0.0415,
+    "grad_norm": 0.6883193850517273,
     "learning_rate": 9.9e-06,
-    "num_tokens": 342769.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.507,
-    "step": 1014
+    "num_tokens": 696302.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.013,
+    "step": 1013
   },
   {
-    "loss": 0.0573,
-    "grad_norm": 2.263990879058838,
+    "loss": 0.0595,
+    "grad_norm": 0.8060528039932251,
     "learning_rate": 9.89e-06,
-    "num_tokens": 343281.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.5075,
-    "step": 1015
+    "num_tokens": 697326.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.014,
+    "step": 1014
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.27414289116859436,
+    "loss": 0.0441,
+    "grad_norm": 0.6391285061836243,
     "learning_rate": 9.88e-06,
-    "num_tokens": 343372.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.508,
-    "step": 1016
+    "num_tokens": 698350.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.015,
+    "step": 1015
   },
   {
-    "loss": 0.068,
-    "grad_norm": 1.3204398155212402,
+    "loss": 0.0587,
+    "grad_norm": 3.029737710952759,
     "learning_rate": 9.87e-06,
-    "num_tokens": 343884.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.5085,
-    "step": 1017
+    "num_tokens": 698953.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.016,
+    "step": 1016
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.33790865540504456,
+    "loss": 0.0486,
+    "grad_norm": 0.8655040860176086,
     "learning_rate": 9.86e-06,
-    "num_tokens": 343975.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.509,
-    "step": 1018
+    "num_tokens": 699556.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.017,
+    "step": 1017
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.3250488340854645,
+    "loss": 0.0318,
+    "grad_norm": 0.7095951437950134,
     "learning_rate": 9.85e-06,
-    "num_tokens": 344066.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5095,
-    "step": 1019
+    "num_tokens": 700159.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.018,
+    "step": 1018
   },
   {
-    "loss": 0.0614,
-    "grad_norm": 1.4563555717468262,
+    "loss": 0.0372,
+    "grad_norm": 0.971708357334137,
     "learning_rate": 9.84e-06,
-    "num_tokens": 344578.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.51,
-    "step": 1020
+    "num_tokens": 700762.0,
+    "mean_token_accuracy": 0.9883527159690857,
+    "epoch": 1.019,
+    "step": 1019
   },
   {
-    "loss": 0.0499,
-    "grad_norm": 3.906182289123535,
+    "loss": 0.0489,
+    "grad_norm": 0.7406445145606995,
     "learning_rate": 9.83e-06,
-    "num_tokens": 345090.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.5105,
-    "step": 1021
+    "num_tokens": 701786.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.02,
+    "step": 1020
   },
   {
-    "loss": 0.1039,
-    "grad_norm": 2.9131107330322266,
+    "loss": 0.0102,
+    "grad_norm": 1.7808157205581665,
     "learning_rate": 9.820000000000001e-06,
-    "num_tokens": 345602.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.511,
-    "step": 1022
+    "num_tokens": 701968.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.021,
+    "step": 1021
   },
   {
-    "loss": 0.1067,
-    "grad_norm": 3.119446039199829,
+    "loss": 0.0688,
+    "grad_norm": 1.5178371667861938,
     "learning_rate": 9.810000000000001e-06,
-    "num_tokens": 346114.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.5115,
-    "step": 1023
+    "num_tokens": 702571.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 1.022,
+    "step": 1022
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.3656690716743469,
+    "loss": 0.0527,
+    "grad_norm": 1.1028006076812744,
     "learning_rate": 9.800000000000001e-06,
-    "num_tokens": 346205.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.512,
-    "step": 1024
+    "num_tokens": 703174.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.023,
+    "step": 1023
   },
   {
-    "loss": 0.0647,
-    "grad_norm": 1.234238862991333,
+    "loss": 0.0495,
+    "grad_norm": 0.8541064858436584,
     "learning_rate": 9.790000000000001e-06,
-    "num_tokens": 346717.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.5125,
-    "step": 1025
+    "num_tokens": 703777.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.024,
+    "step": 1024
   },
   {
-    "loss": 0.0612,
-    "grad_norm": 1.0838911533355713,
+    "loss": 0.0321,
+    "grad_norm": 0.749095618724823,
     "learning_rate": 9.780000000000001e-06,
-    "num_tokens": 347229.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.513,
-    "step": 1026
+    "num_tokens": 704380.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.025,
+    "step": 1025
   },
   {
-    "loss": 0.0668,
-    "grad_norm": 1.8563507795333862,
+    "loss": 0.0533,
+    "grad_norm": 1.0253041982650757,
     "learning_rate": 9.770000000000001e-06,
-    "num_tokens": 347741.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.5135,
-    "step": 1027
+    "num_tokens": 704983.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.026,
+    "step": 1026
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.447256475687027,
+    "loss": 0.0603,
+    "grad_norm": 1.2609119415283203,
     "learning_rate": 9.760000000000001e-06,
-    "num_tokens": 347832.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.514,
-    "step": 1028
+    "num_tokens": 705586.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.027,
+    "step": 1027
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.4668635427951813,
+    "loss": 0.0623,
+    "grad_norm": 1.2862604856491089,
     "learning_rate": 9.75e-06,
-    "num_tokens": 347923.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5145,
-    "step": 1029
+    "num_tokens": 706189.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.028,
+    "step": 1028
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.45568251609802246,
+    "loss": 0.0077,
+    "grad_norm": 1.3439050912857056,
     "learning_rate": 9.74e-06,
-    "num_tokens": 348014.0,
+    "num_tokens": 706371.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.515,
-    "step": 1030
+    "epoch": 1.029,
+    "step": 1029
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.5207828283309937,
+    "loss": 0.0456,
+    "grad_norm": 0.8898230195045471,
     "learning_rate": 9.73e-06,
-    "num_tokens": 348105.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5155,
-    "step": 1031
+    "num_tokens": 706974.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.03,
+    "step": 1030
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.3548046946525574,
+    "loss": 0.0709,
+    "grad_norm": 1.024522304534912,
     "learning_rate": 9.72e-06,
-    "num_tokens": 348196.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.516,
-    "step": 1032
+    "num_tokens": 707998.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 1.031,
+    "step": 1031
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.3339339792728424,
+    "loss": 0.0339,
+    "grad_norm": 0.9764677286148071,
     "learning_rate": 9.71e-06,
-    "num_tokens": 348287.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5165,
-    "step": 1033
+    "num_tokens": 708601.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.032,
+    "step": 1032
   },
   {
-    "loss": 0.0449,
-    "grad_norm": 1.344630479812622,
+    "loss": 0.059,
+    "grad_norm": 1.010137677192688,
     "learning_rate": 9.7e-06,
-    "num_tokens": 348799.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.517,
-    "step": 1034
+    "num_tokens": 709204.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.033,
+    "step": 1033
   },
   {
-    "loss": 0.0627,
-    "grad_norm": 1.3697110414505005,
+    "loss": 0.0467,
+    "grad_norm": 1.2479255199432373,
     "learning_rate": 9.69e-06,
-    "num_tokens": 349311.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.5175,
-    "step": 1035
+    "num_tokens": 709807.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.034,
+    "step": 1034
   },
   {
-    "loss": 0.0631,
-    "grad_norm": 1.4324746131896973,
+    "loss": 0.0652,
+    "grad_norm": 1.532749056816101,
     "learning_rate": 9.68e-06,
-    "num_tokens": 349823.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.518,
-    "step": 1036
+    "num_tokens": 710410.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.035,
+    "step": 1035
   },
   {
-    "loss": 0.0598,
-    "grad_norm": 1.1418583393096924,
+    "loss": 0.0493,
+    "grad_norm": 0.7740268707275391,
     "learning_rate": 9.67e-06,
-    "num_tokens": 350335.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.5185,
-    "step": 1037
+    "num_tokens": 711434.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.036,
+    "step": 1036
   },
   {
-    "loss": 0.0703,
-    "grad_norm": 1.3187053203582764,
+    "loss": 0.0353,
+    "grad_norm": 0.9729663729667664,
     "learning_rate": 9.66e-06,
-    "num_tokens": 350847.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.519,
-    "step": 1038
+    "num_tokens": 712037.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.037,
+    "step": 1037
   },
   {
-    "loss": 0.0674,
-    "grad_norm": 1.5415701866149902,
+    "loss": 0.0547,
+    "grad_norm": 1.164442539215088,
     "learning_rate": 9.65e-06,
-    "num_tokens": 351359.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.5195,
-    "step": 1039
+    "num_tokens": 712640.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.038,
+    "step": 1038
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.5410366654396057,
+    "loss": 0.0069,
+    "grad_norm": 1.2468204498291016,
     "learning_rate": 9.640000000000001e-06,
-    "num_tokens": 351450.0,
+    "num_tokens": 712822.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.52,
-    "step": 1040
+    "epoch": 1.039,
+    "step": 1039
   },
   {
-    "loss": 0.0472,
-    "grad_norm": 1.4691059589385986,
+    "loss": 0.0506,
+    "grad_norm": 1.4751908779144287,
     "learning_rate": 9.630000000000001e-06,
-    "num_tokens": 351962.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.5205,
-    "step": 1041
+    "num_tokens": 713425.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.04,
+    "step": 1040
   },
   {
-    "loss": 0.0714,
-    "grad_norm": 1.8328925371170044,
+    "loss": 0.0373,
+    "grad_norm": 0.8496048450469971,
     "learning_rate": 9.620000000000001e-06,
-    "num_tokens": 352474.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.521,
-    "step": 1042
+    "num_tokens": 714028.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.041,
+    "step": 1041
   },
   {
-    "loss": 0.0502,
-    "grad_norm": 1.4959746599197388,
+    "loss": 0.0344,
+    "grad_norm": 0.8480894565582275,
     "learning_rate": 9.610000000000001e-06,
-    "num_tokens": 352986.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.5215,
-    "step": 1043
+    "num_tokens": 714631.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.042,
+    "step": 1042
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.3770292103290558,
+    "loss": 0.0538,
+    "grad_norm": 0.9738388061523438,
     "learning_rate": 9.600000000000001e-06,
-    "num_tokens": 353077.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.522,
-    "step": 1044
+    "num_tokens": 715655.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.043,
+    "step": 1043
   },
   {
-    "loss": 0.0638,
-    "grad_norm": 1.2776446342468262,
+    "loss": 0.0066,
+    "grad_norm": 1.1477543115615845,
     "learning_rate": 9.59e-06,
-    "num_tokens": 353589.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.5225,
-    "step": 1045
+    "num_tokens": 715837.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.044,
+    "step": 1044
   },
   {
-    "loss": 0.0437,
-    "grad_norm": 1.0079017877578735,
+    "loss": 0.0405,
+    "grad_norm": 0.913650393486023,
     "learning_rate": 9.58e-06,
-    "num_tokens": 354101.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.523,
-    "step": 1046
+    "num_tokens": 716861.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 1.045,
+    "step": 1045
   },
   {
-    "loss": 0.0628,
-    "grad_norm": 1.1776297092437744,
+    "loss": 0.0487,
+    "grad_norm": 0.9134669303894043,
     "learning_rate": 9.57e-06,
-    "num_tokens": 354613.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.5235,
-    "step": 1047
+    "num_tokens": 717464.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.046,
+    "step": 1046
   },
   {
-    "loss": 0.0444,
-    "grad_norm": 1.2560832500457764,
+    "loss": 0.0521,
+    "grad_norm": 1.0108141899108887,
     "learning_rate": 9.56e-06,
-    "num_tokens": 355125.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.524,
-    "step": 1048
+    "num_tokens": 718067.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.047,
+    "step": 1047
   },
   {
-    "loss": 0.0658,
-    "grad_norm": 1.9305787086486816,
+    "loss": 0.0065,
+    "grad_norm": 1.1465944051742554,
     "learning_rate": 9.55e-06,
-    "num_tokens": 355637.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.5245,
-    "step": 1049
+    "num_tokens": 718249.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.048,
+    "step": 1048
   },
   {
-    "loss": 0.0673,
-    "grad_norm": 1.5484907627105713,
+    "loss": 0.0494,
+    "grad_norm": 0.7855933308601379,
     "learning_rate": 9.54e-06,
-    "num_tokens": 356149.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.525,
-    "step": 1050
+    "num_tokens": 719273.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.049,
+    "step": 1049
   },
   {
-    "loss": 0.0603,
-    "grad_norm": 1.2816107273101807,
+    "loss": 0.0574,
+    "grad_norm": 1.1935304403305054,
     "learning_rate": 9.53e-06,
-    "num_tokens": 356661.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.5255,
-    "step": 1051
+    "num_tokens": 719876.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.05,
+    "step": 1050
   },
   {
-    "loss": 0.0071,
-    "grad_norm": 1.2031859159469604,
+    "loss": 0.0524,
+    "grad_norm": 1.244053840637207,
     "learning_rate": 9.52e-06,
-    "num_tokens": 356752.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.526,
-    "step": 1052
+    "num_tokens": 720479.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.051,
+    "step": 1051
   },
   {
-    "loss": 0.0446,
-    "grad_norm": 1.0432018041610718,
+    "loss": 0.0394,
+    "grad_norm": 0.8121421933174133,
     "learning_rate": 9.51e-06,
-    "num_tokens": 357264.0,
+    "num_tokens": 721503.0,
     "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.5265,
-    "step": 1053
+    "epoch": 1.052,
+    "step": 1052
   },
   {
-    "loss": 0.0082,
-    "grad_norm": 1.3467326164245605,
+    "loss": 0.0587,
+    "grad_norm": 0.8952818512916565,
     "learning_rate": 9.5e-06,
-    "num_tokens": 357355.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.527,
-    "step": 1054
+    "num_tokens": 722527.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.053,
+    "step": 1053
   },
   {
-    "loss": 0.044,
-    "grad_norm": 1.1683317422866821,
+    "loss": 0.0523,
+    "grad_norm": 1.0233876705169678,
     "learning_rate": 9.49e-06,
-    "num_tokens": 357867.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.5275,
-    "step": 1055
+    "num_tokens": 723130.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.054,
+    "step": 1054
   },
   {
-    "loss": 0.007,
-    "grad_norm": 1.1747612953186035,
+    "loss": 0.0059,
+    "grad_norm": 0.9962955713272095,
     "learning_rate": 9.48e-06,
-    "num_tokens": 357958.0,
+    "num_tokens": 723312.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.528,
-    "step": 1056
+    "epoch": 1.055,
+    "step": 1055
   },
   {
-    "loss": 0.0623,
-    "grad_norm": 1.1376299858093262,
+    "loss": 0.0063,
+    "grad_norm": 1.0562559366226196,
     "learning_rate": 9.47e-06,
-    "num_tokens": 358470.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.5285,
-    "step": 1057
+    "num_tokens": 723494.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.056,
+    "step": 1056
   },
   {
-    "loss": 0.0711,
-    "grad_norm": 1.2417066097259521,
+    "loss": 0.0057,
+    "grad_norm": 0.9193427562713623,
     "learning_rate": 9.460000000000001e-06,
-    "num_tokens": 358982.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.529,
-    "step": 1058
+    "num_tokens": 723676.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.057,
+    "step": 1057
   },
   {
-    "loss": 0.0052,
-    "grad_norm": 0.9077128171920776,
+    "loss": 0.0349,
+    "grad_norm": 0.8626947999000549,
     "learning_rate": 9.450000000000001e-06,
-    "num_tokens": 359073.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5295,
-    "step": 1059
+    "num_tokens": 724279.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.058,
+    "step": 1058
   },
   {
-    "loss": 0.0053,
-    "grad_norm": 0.951680600643158,
+    "loss": 0.004,
+    "grad_norm": 0.589850902557373,
     "learning_rate": 9.440000000000001e-06,
-    "num_tokens": 359164.0,
+    "num_tokens": 724461.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.53,
-    "step": 1060
+    "epoch": 1.059,
+    "step": 1059
   },
   {
-    "loss": 0.0467,
-    "grad_norm": 1.1328734159469604,
+    "loss": 0.033,
+    "grad_norm": 0.9240136742591858,
     "learning_rate": 9.43e-06,
-    "num_tokens": 359676.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.5305,
-    "step": 1061
+    "num_tokens": 725064.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.06,
+    "step": 1060
   },
   {
-    "loss": 0.0036,
-    "grad_norm": 0.6388375163078308,
+    "loss": 0.0031,
+    "grad_norm": 0.410062700510025,
     "learning_rate": 9.42e-06,
-    "num_tokens": 359767.0,
+    "num_tokens": 725246.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.531,
-    "step": 1062
+    "epoch": 1.061,
+    "step": 1061
   },
   {
-    "loss": 0.0713,
-    "grad_norm": 1.098759651184082,
+    "loss": 0.0569,
+    "grad_norm": 1.0026599168777466,
     "learning_rate": 9.41e-06,
-    "num_tokens": 360279.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.5315,
-    "step": 1063
+    "num_tokens": 726270.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.062,
+    "step": 1062
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.3749485909938812,
+    "loss": 0.0319,
+    "grad_norm": 0.7115553617477417,
     "learning_rate": 9.4e-06,
-    "num_tokens": 360370.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.532,
-    "step": 1064
+    "num_tokens": 726873.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.063,
+    "step": 1063
   },
   {
-    "loss": 0.078,
-    "grad_norm": 1.4193601608276367,
+    "loss": 0.044,
+    "grad_norm": 1.1377477645874023,
     "learning_rate": 9.39e-06,
-    "num_tokens": 360882.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.5325,
-    "step": 1065
+    "num_tokens": 727897.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.064,
+    "step": 1064
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.29766610264778137,
+    "loss": 0.0022,
+    "grad_norm": 0.2264242321252823,
     "learning_rate": 9.38e-06,
-    "num_tokens": 360973.0,
+    "num_tokens": 728079.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.533,
-    "step": 1066
+    "epoch": 1.065,
+    "step": 1065
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.2773911952972412,
+    "loss": 0.0406,
+    "grad_norm": 1.1054085493087769,
     "learning_rate": 9.370000000000002e-06,
-    "num_tokens": 361064.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5335,
-    "step": 1067
+    "num_tokens": 728682.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.066,
+    "step": 1066
   },
   {
-    "loss": 0.0016,
-    "grad_norm": 0.19664674997329712,
+    "loss": 0.0542,
+    "grad_norm": 1.080283522605896,
     "learning_rate": 9.360000000000002e-06,
-    "num_tokens": 361155.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.534,
-    "step": 1068
+    "num_tokens": 729706.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.067,
+    "step": 1067
   },
   {
-    "loss": 0.0994,
-    "grad_norm": 2.1268746852874756,
+    "loss": 0.0355,
+    "grad_norm": 0.8702858686447144,
     "learning_rate": 9.350000000000002e-06,
-    "num_tokens": 361667.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.5345,
-    "step": 1069
+    "num_tokens": 730309.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.068,
+    "step": 1068
   },
   {
-    "loss": 0.0476,
-    "grad_norm": 1.1297088861465454,
+    "loss": 0.0023,
+    "grad_norm": 0.2787419557571411,
     "learning_rate": 9.340000000000002e-06,
-    "num_tokens": 362179.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.535,
-    "step": 1070
+    "num_tokens": 730491.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.069,
+    "step": 1069
   },
   {
-    "loss": 0.0518,
-    "grad_norm": 1.1052606105804443,
+    "loss": 0.0539,
+    "grad_norm": 1.061450481414795,
     "learning_rate": 9.33e-06,
-    "num_tokens": 362691.0,
+    "num_tokens": 731515.0,
     "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.5355,
-    "step": 1071
+    "epoch": 1.07,
+    "step": 1070
   },
   {
-    "loss": 0.0483,
-    "grad_norm": 1.1215248107910156,
+    "loss": 0.0772,
+    "grad_norm": 1.567914605140686,
     "learning_rate": 9.32e-06,
-    "num_tokens": 363203.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.536,
-    "step": 1072
+    "num_tokens": 732539.0,
+    "mean_token_accuracy": 0.9647749662399292,
+    "epoch": 1.071,
+    "step": 1071
   },
   {
-    "loss": 0.0595,
-    "grad_norm": 1.192276120185852,
+    "loss": 0.0493,
+    "grad_norm": 0.7363911271095276,
     "learning_rate": 9.31e-06,
-    "num_tokens": 363715.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.5365,
-    "step": 1073
+    "num_tokens": 733563.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.072,
+    "step": 1072
   },
   {
-    "loss": 0.1127,
-    "grad_norm": 2.282710552215576,
+    "loss": 0.0561,
+    "grad_norm": 1.2731812000274658,
     "learning_rate": 9.3e-06,
-    "num_tokens": 364227.0,
-    "mean_token_accuracy": 0.9549902081489563,
-    "epoch": 0.537,
-    "step": 1074
+    "num_tokens": 734166.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.073,
+    "step": 1073
   },
   {
-    "loss": 0.0014,
-    "grad_norm": 0.18352188169956207,
+    "loss": 0.0673,
+    "grad_norm": 1.3731825351715088,
     "learning_rate": 9.29e-06,
-    "num_tokens": 364318.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5375,
-    "step": 1075
+    "num_tokens": 734769.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 1.074,
+    "step": 1074
   },
   {
-    "loss": 0.0668,
-    "grad_norm": 1.2716619968414307,
+    "loss": 0.0666,
+    "grad_norm": 1.0484107732772827,
     "learning_rate": 9.280000000000001e-06,
-    "num_tokens": 364830.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.538,
-    "step": 1076
+    "num_tokens": 735793.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.075,
+    "step": 1075
   },
   {
-    "loss": 0.1147,
-    "grad_norm": 2.7008156776428223,
+    "loss": 0.0472,
+    "grad_norm": 1.0025572776794434,
     "learning_rate": 9.270000000000001e-06,
-    "num_tokens": 365342.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.5385,
-    "step": 1077
+    "num_tokens": 736817.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.076,
+    "step": 1076
   },
   {
-    "loss": 0.1018,
-    "grad_norm": 2.031930446624756,
+    "loss": 0.006,
+    "grad_norm": 1.1883853673934937,
     "learning_rate": 9.260000000000001e-06,
-    "num_tokens": 365854.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.539,
-    "step": 1078
+    "num_tokens": 736999.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.077,
+    "step": 1077
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.2863346338272095,
+    "loss": 0.0549,
+    "grad_norm": 1.1541094779968262,
     "learning_rate": 9.250000000000001e-06,
-    "num_tokens": 365945.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5395,
-    "step": 1079
+    "num_tokens": 737602.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.078,
+    "step": 1078
   },
-  {
-    "loss": 0.0471,
-    "grad_norm": 1.2682809829711914,
-    "learning_rate": 9.240000000000001e-06,
-    "num_tokens": 366457.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.54,
-    "step": 1080
+  {
+    "loss": 0.0499,
+    "grad_norm": 0.9700387716293335,
+    "learning_rate": 9.240000000000001e-06,
+    "num_tokens": 738205.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.079,
+    "step": 1079
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.30941078066825867,
+    "loss": 0.0542,
+    "grad_norm": 0.8913364410400391,
     "learning_rate": 9.230000000000001e-06,
-    "num_tokens": 366548.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5405,
-    "step": 1081
+    "num_tokens": 738808.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.08,
+    "step": 1080
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.3932475745677948,
+    "loss": 0.048,
+    "grad_norm": 0.8343157172203064,
     "learning_rate": 9.220000000000002e-06,
-    "num_tokens": 366639.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.541,
-    "step": 1082
+    "num_tokens": 739411.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.081,
+    "step": 1081
   },
   {
-    "loss": 0.0632,
-    "grad_norm": 1.0679800510406494,
+    "loss": 0.0492,
+    "grad_norm": 0.6102253794670105,
     "learning_rate": 9.210000000000002e-06,
-    "num_tokens": 367151.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.5415,
-    "step": 1083
+    "num_tokens": 740435.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.082,
+    "step": 1082
   },
   {
-    "loss": 0.0663,
-    "grad_norm": 1.3005118370056152,
+    "loss": 0.0502,
+    "grad_norm": 1.070359230041504,
     "learning_rate": 9.200000000000002e-06,
-    "num_tokens": 367663.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.542,
-    "step": 1084
+    "num_tokens": 741038.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.083,
+    "step": 1083
   },
   {
-    "loss": 0.0423,
-    "grad_norm": 1.1240161657333374,
+    "loss": 0.0581,
+    "grad_norm": 0.858526885509491,
     "learning_rate": 9.190000000000002e-06,
-    "num_tokens": 368175.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.5425,
-    "step": 1085
+    "num_tokens": 742062.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.084,
+    "step": 1084
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.4581877887248993,
+    "loss": 0.0502,
+    "grad_norm": 0.9168484210968018,
     "learning_rate": 9.180000000000002e-06,
-    "num_tokens": 368266.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.543,
-    "step": 1086
+    "num_tokens": 742665.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.085,
+    "step": 1085
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.47186893224716187,
+    "loss": 0.0583,
+    "grad_norm": 0.8808404207229614,
     "learning_rate": 9.17e-06,
-    "num_tokens": 368357.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5435,
-    "step": 1087
+    "num_tokens": 743689.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.086,
+    "step": 1086
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.5238748788833618,
+    "loss": 0.0642,
+    "grad_norm": 1.2995198965072632,
     "learning_rate": 9.16e-06,
-    "num_tokens": 368448.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.544,
-    "step": 1088
+    "num_tokens": 744292.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.087,
+    "step": 1087
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.4411686062812805,
+    "loss": 0.0133,
+    "grad_norm": 2.1493337154388428,
     "learning_rate": 9.15e-06,
-    "num_tokens": 368539.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5445,
-    "step": 1089
+    "num_tokens": 744474.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.088,
+    "step": 1088
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.40239110589027405,
+    "loss": 0.0379,
+    "grad_norm": 1.0027700662612915,
     "learning_rate": 9.14e-06,
-    "num_tokens": 368630.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.545,
-    "step": 1090
+    "num_tokens": 745077.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.089,
+    "step": 1089
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.3315543234348297,
+    "loss": 0.0659,
+    "grad_norm": 0.9788306951522827,
     "learning_rate": 9.13e-06,
-    "num_tokens": 368721.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5455,
-    "step": 1091
+    "num_tokens": 746101.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.09,
+    "step": 1090
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.2885858416557312,
+    "loss": 0.0616,
+    "grad_norm": 0.9896969795227051,
     "learning_rate": 9.12e-06,
-    "num_tokens": 368812.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.546,
-    "step": 1092
+    "num_tokens": 747125.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.091,
+    "step": 1091
   },
   {
-    "loss": 0.073,
-    "grad_norm": 1.8177210092544556,
+    "loss": 0.1079,
+    "grad_norm": 2.129412889480591,
     "learning_rate": 9.110000000000001e-06,
-    "num_tokens": 369324.0,
+    "num_tokens": 748149.0,
     "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.5465,
-    "step": 1093
+    "epoch": 1.092,
+    "step": 1092
   },
   {
-    "loss": 0.0966,
-    "grad_norm": 1.7291756868362427,
+    "loss": 0.0362,
+    "grad_norm": 0.836596667766571,
     "learning_rate": 9.100000000000001e-06,
-    "num_tokens": 369836.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.547,
-    "step": 1094
+    "num_tokens": 748752.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.093,
+    "step": 1093
   },
   {
-    "loss": 0.0016,
-    "grad_norm": 0.19609428942203522,
+    "loss": 0.0564,
+    "grad_norm": 0.9442873001098633,
     "learning_rate": 9.090000000000001e-06,
-    "num_tokens": 369927.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5475,
-    "step": 1095
+    "num_tokens": 749355.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.094,
+    "step": 1094
   },
   {
-    "loss": 0.0496,
-    "grad_norm": 1.1353715658187866,
+    "loss": 0.033,
+    "grad_norm": 0.8565213680267334,
     "learning_rate": 9.080000000000001e-06,
-    "num_tokens": 370439.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.548,
-    "step": 1096
+    "num_tokens": 749958.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.095,
+    "step": 1095
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.17373698949813843,
+    "loss": 0.0122,
+    "grad_norm": 2.0779123306274414,
     "learning_rate": 9.070000000000001e-06,
-    "num_tokens": 370530.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5485,
-    "step": 1097
+    "num_tokens": 750140.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.096,
+    "step": 1096
   },
   {
-    "loss": 0.0441,
-    "grad_norm": 1.0672266483306885,
+    "loss": 0.0474,
+    "grad_norm": 0.8895683288574219,
     "learning_rate": 9.060000000000001e-06,
-    "num_tokens": 371042.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.549,
-    "step": 1098
+    "num_tokens": 750743.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.097,
+    "step": 1097
   },
   {
-    "loss": 0.0014,
-    "grad_norm": 0.154168039560318,
+    "loss": 0.0371,
+    "grad_norm": 0.8520296812057495,
     "learning_rate": 9.050000000000001e-06,
-    "num_tokens": 371133.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5495,
-    "step": 1099
+    "num_tokens": 751346.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.098,
+    "step": 1098
   },
   {
-    "loss": 0.0737,
-    "grad_norm": 1.3493475914001465,
+    "loss": 0.0521,
+    "grad_norm": 1.0311665534973145,
     "learning_rate": 9.040000000000002e-06,
-    "num_tokens": 371645.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.55,
-    "step": 1100
+    "num_tokens": 751949.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.099,
+    "step": 1099
   },
   {
-    "loss": 0.0013,
-    "grad_norm": 0.14875750243663788,
+    "loss": 0.0493,
+    "grad_norm": 0.7174288034439087,
     "learning_rate": 9.030000000000002e-06,
-    "num_tokens": 371736.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5505,
-    "step": 1101
+    "num_tokens": 752552.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.1,
+    "step": 1100
   },
   {
-    "loss": 0.0012,
-    "grad_norm": 0.13037247955799103,
+    "loss": 0.0078,
+    "grad_norm": 1.336002230644226,
     "learning_rate": 9.020000000000002e-06,
-    "num_tokens": 371827.0,
+    "num_tokens": 752734.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.551,
-    "step": 1102
+    "epoch": 1.101,
+    "step": 1101
   },
   {
-    "loss": 0.0012,
-    "grad_norm": 0.12503254413604736,
+    "loss": 0.0563,
+    "grad_norm": 0.7885469794273376,
     "learning_rate": 9.01e-06,
-    "num_tokens": 371918.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5515,
-    "step": 1103
+    "num_tokens": 753758.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.102,
+    "step": 1102
   },
   {
-    "loss": 0.0012,
-    "grad_norm": 0.12820948660373688,
+    "loss": 0.0509,
+    "grad_norm": 0.8089726567268372,
     "learning_rate": 9e-06,
-    "num_tokens": 372009.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.552,
-    "step": 1104
+    "num_tokens": 754361.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.103,
+    "step": 1103
   },
   {
-    "loss": 0.0885,
-    "grad_norm": 1.8362265825271606,
+    "loss": 0.0655,
+    "grad_norm": 1.0928263664245605,
     "learning_rate": 8.99e-06,
-    "num_tokens": 372521.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.5525,
-    "step": 1105
+    "num_tokens": 755385.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 1.104,
+    "step": 1104
   },
   {
-    "loss": 0.0012,
-    "grad_norm": 0.12838858366012573,
+    "loss": 0.0477,
+    "grad_norm": 0.7860797643661499,
     "learning_rate": 8.98e-06,
-    "num_tokens": 372612.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.553,
-    "step": 1106
+    "num_tokens": 756409.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.105,
+    "step": 1105
   },
   {
-    "loss": 0.0495,
-    "grad_norm": 1.446435809135437,
+    "loss": 0.0457,
+    "grad_norm": 0.7514035105705261,
     "learning_rate": 8.97e-06,
-    "num_tokens": 373124.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.5535,
-    "step": 1107
+    "num_tokens": 757433.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.106,
+    "step": 1106
   },
   {
-    "loss": 0.07,
-    "grad_norm": 1.1417546272277832,
+    "loss": 0.0521,
+    "grad_norm": 0.7597775459289551,
     "learning_rate": 8.96e-06,
-    "num_tokens": 373636.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.554,
-    "step": 1108
+    "num_tokens": 758036.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.107,
+    "step": 1107
   },
   {
-    "loss": 0.0679,
-    "grad_norm": 1.1534578800201416,
+    "loss": 0.0361,
+    "grad_norm": 1.1093838214874268,
     "learning_rate": 8.95e-06,
-    "num_tokens": 374148.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.5545,
-    "step": 1109
+    "num_tokens": 758639.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.108,
+    "step": 1108
   },
   {
-    "loss": 0.0556,
-    "grad_norm": 1.263162612915039,
+    "loss": 0.1442,
+    "grad_norm": 2.127009391784668,
     "learning_rate": 8.94e-06,
-    "num_tokens": 374660.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.555,
-    "step": 1110
+    "num_tokens": 759663.0,
+    "mean_token_accuracy": 0.951076328754425,
+    "epoch": 1.109,
+    "step": 1109
   },
   {
-    "loss": 0.0687,
-    "grad_norm": 1.441730260848999,
+    "loss": 0.0066,
+    "grad_norm": 1.1645936965942383,
     "learning_rate": 8.930000000000001e-06,
-    "num_tokens": 375172.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.5555,
-    "step": 1111
+    "num_tokens": 759845.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.11,
+    "step": 1110
   },
   {
-    "loss": 0.0561,
-    "grad_norm": 0.989497721195221,
+    "loss": 0.1759,
+    "grad_norm": 2.889411687850952,
     "learning_rate": 8.920000000000001e-06,
-    "num_tokens": 375684.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.556,
-    "step": 1112
+    "num_tokens": 760448.0,
+    "mean_token_accuracy": 0.9500831961631775,
+    "epoch": 1.111,
+    "step": 1111
   },
   {
-    "loss": 0.0508,
-    "grad_norm": 1.1718560457229614,
+    "loss": 0.0631,
+    "grad_norm": 0.8576507568359375,
     "learning_rate": 8.910000000000001e-06,
-    "num_tokens": 376196.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.5565,
-    "step": 1113
+    "num_tokens": 761472.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.112,
+    "step": 1112
   },
   {
-    "loss": 0.0436,
-    "grad_norm": 1.1105691194534302,
+    "loss": 0.033,
+    "grad_norm": 0.680837869644165,
     "learning_rate": 8.900000000000001e-06,
-    "num_tokens": 376708.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.557,
-    "step": 1114
+    "num_tokens": 762075.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.113,
+    "step": 1113
   },
   {
-    "loss": 0.0574,
-    "grad_norm": 1.159988522529602,
+    "loss": 0.0569,
+    "grad_norm": 0.7789044976234436,
     "learning_rate": 8.890000000000001e-06,
-    "num_tokens": 377220.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.5575,
-    "step": 1115
+    "num_tokens": 763099.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.114,
+    "step": 1114
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.5130383968353271,
+    "loss": 0.0346,
+    "grad_norm": 0.7028644680976868,
     "learning_rate": 8.880000000000001e-06,
-    "num_tokens": 377311.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.558,
-    "step": 1116
+    "num_tokens": 763702.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.115,
+    "step": 1115
   },
   {
-    "loss": 0.0703,
-    "grad_norm": 1.8314932584762573,
+    "loss": 0.0534,
+    "grad_norm": 0.8470257520675659,
     "learning_rate": 8.870000000000001e-06,
-    "num_tokens": 377823.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.5585,
-    "step": 1117
+    "num_tokens": 764305.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.116,
+    "step": 1116
   },
   {
-    "loss": 0.0389,
-    "grad_norm": 0.7763837575912476,
+    "loss": 0.0342,
+    "grad_norm": 0.7343347668647766,
     "learning_rate": 8.860000000000002e-06,
-    "num_tokens": 378335.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.559,
-    "step": 1118
+    "num_tokens": 764908.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.117,
+    "step": 1117
   },
   {
-    "loss": 0.0648,
-    "grad_norm": 1.4212884902954102,
+    "loss": 0.0347,
+    "grad_norm": 0.8201417922973633,
     "learning_rate": 8.85e-06,
-    "num_tokens": 378847.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.5595,
-    "step": 1119
+    "num_tokens": 765511.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.1179999999999999,
+    "step": 1118
   },
   {
-    "loss": 0.0467,
-    "grad_norm": 1.0347092151641846,
+    "loss": 0.0616,
+    "grad_norm": 0.8209514617919922,
     "learning_rate": 8.84e-06,
-    "num_tokens": 379359.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.56,
-    "step": 1120
+    "num_tokens": 766535.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.119,
+    "step": 1119
   },
   {
-    "loss": 0.0574,
-    "grad_norm": 0.9852561950683594,
+    "loss": 0.1121,
+    "grad_norm": 2.1913256645202637,
     "learning_rate": 8.83e-06,
-    "num_tokens": 379871.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.5605,
-    "step": 1121
+    "num_tokens": 767559.0,
+    "mean_token_accuracy": 0.9569471478462219,
+    "epoch": 1.12,
+    "step": 1120
   },
   {
-    "loss": 0.0443,
-    "grad_norm": 1.2871586084365845,
+    "loss": 0.034,
+    "grad_norm": 0.8490939736366272,
     "learning_rate": 8.82e-06,
-    "num_tokens": 380383.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.561,
-    "step": 1122
+    "num_tokens": 768162.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.121,
+    "step": 1121
   },
   {
-    "loss": 0.0497,
-    "grad_norm": 1.0900676250457764,
+    "loss": 0.0572,
+    "grad_norm": 0.6898327469825745,
     "learning_rate": 8.81e-06,
-    "num_tokens": 380895.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.5615,
-    "step": 1123
+    "num_tokens": 769186.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.1219999999999999,
+    "step": 1122
   },
   {
-    "loss": 0.0094,
-    "grad_norm": 1.5167303085327148,
+    "loss": 0.0107,
+    "grad_norm": 1.8263050317764282,
     "learning_rate": 8.8e-06,
-    "num_tokens": 380986.0,
+    "num_tokens": 769368.0,
     "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.562,
-    "step": 1124
+    "epoch": 1.123,
+    "step": 1123
   },
   {
-    "loss": 0.0091,
-    "grad_norm": 1.4984208345413208,
+    "loss": 0.0281,
+    "grad_norm": 0.6163520216941833,
     "learning_rate": 8.79e-06,
-    "num_tokens": 381077.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.5625,
-    "step": 1125
+    "num_tokens": 769971.0,
+    "mean_token_accuracy": 0.9900166392326355,
+    "epoch": 1.124,
+    "step": 1124
   },
   {
-    "loss": 0.0087,
-    "grad_norm": 1.4189144372940063,
+    "loss": 0.0425,
+    "grad_norm": 0.7312502861022949,
     "learning_rate": 8.78e-06,
-    "num_tokens": 381168.0,
-    "mean_token_accuracy": 0.9888888597488403,
-    "epoch": 0.563,
-    "step": 1126
+    "num_tokens": 770574.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.125,
+    "step": 1125
   },
   {
-    "loss": 0.0711,
-    "grad_norm": 1.5254539251327515,
+    "loss": 0.0352,
+    "grad_norm": 0.9618499279022217,
     "learning_rate": 8.77e-06,
-    "num_tokens": 381680.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.5635,
+    "num_tokens": 771177.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.126,
+    "step": 1126
+  },
+  {
+    "loss": 0.0373,
+    "grad_norm": 0.9263796806335449,
+    "learning_rate": 8.76e-06,
+    "num_tokens": 771780.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.127,
     "step": 1127
   },
   {
-    "loss": 0.0559,
-    "grad_norm": 0.9745803475379944,
-    "learning_rate": 8.76e-06,
-    "num_tokens": 382192.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.564,
+    "loss": 0.0331,
+    "grad_norm": 0.862051784992218,
+    "learning_rate": 8.750000000000001e-06,
+    "num_tokens": 772383.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.1280000000000001,
     "step": 1128
   },
   {
-    "loss": 0.0487,
-    "grad_norm": 0.9314166307449341,
-    "learning_rate": 8.750000000000001e-06,
-    "num_tokens": 382704.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.5645,
+    "loss": 0.008,
+    "grad_norm": 1.4848543405532837,
+    "learning_rate": 8.740000000000001e-06,
+    "num_tokens": 772565.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.129,
     "step": 1129
   },
   {
-    "loss": 0.0985,
-    "grad_norm": 1.935889482498169,
-    "learning_rate": 8.740000000000001e-06,
-    "num_tokens": 383216.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.565,
+    "loss": 0.1153,
+    "grad_norm": 1.4379287958145142,
+    "learning_rate": 8.730000000000001e-06,
+    "num_tokens": 773589.0,
+    "mean_token_accuracy": 0.9559686779975891,
+    "epoch": 1.13,
     "step": 1130
   },
   {
-    "loss": 0.0884,
-    "grad_norm": 2.4487457275390625,
-    "learning_rate": 8.730000000000001e-06,
-    "num_tokens": 383728.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.5655,
+    "loss": 0.0338,
+    "grad_norm": 1.0212937593460083,
+    "learning_rate": 8.720000000000001e-06,
+    "num_tokens": 774192.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.131,
     "step": 1131
   },
   {
-    "loss": 0.0417,
-    "grad_norm": 1.0779677629470825,
-    "learning_rate": 8.720000000000001e-06,
-    "num_tokens": 384240.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.566,
+    "loss": 0.057,
+    "grad_norm": 1.1756787300109863,
+    "learning_rate": 8.710000000000001e-06,
+    "num_tokens": 775216.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.1320000000000001,
     "step": 1132
   },
   {
-    "loss": 0.0071,
-    "grad_norm": 1.1962640285491943,
-    "learning_rate": 8.710000000000001e-06,
-    "num_tokens": 384331.0,
+    "loss": 0.0066,
+    "grad_norm": 1.1858594417572021,
+    "learning_rate": 8.700000000000001e-06,
+    "num_tokens": 775398.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.5665,
+    "epoch": 1.133,
     "step": 1133
   },
   {
-    "loss": 0.0412,
-    "grad_norm": 1.0417979955673218,
-    "learning_rate": 8.700000000000001e-06,
-    "num_tokens": 384843.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.567,
+    "loss": 0.0577,
+    "grad_norm": 0.945641815662384,
+    "learning_rate": 8.690000000000002e-06,
+    "num_tokens": 776001.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.134,
     "step": 1134
   },
   {
-    "loss": 0.0064,
-    "grad_norm": 1.0799331665039062,
-    "learning_rate": 8.690000000000002e-06,
-    "num_tokens": 384934.0,
+    "loss": 0.006,
+    "grad_norm": 1.0474095344543457,
+    "learning_rate": 8.68e-06,
+    "num_tokens": 776183.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.5675,
+    "epoch": 1.135,
     "step": 1135
   },
   {
-    "loss": 0.0061,
-    "grad_norm": 1.0343092679977417,
-    "learning_rate": 8.68e-06,
-    "num_tokens": 385025.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.568,
+    "loss": 0.0506,
+    "grad_norm": 1.064457654953003,
+    "learning_rate": 8.67e-06,
+    "num_tokens": 776786.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.1360000000000001,
     "step": 1136
   },
   {
-    "loss": 0.0516,
-    "grad_norm": 1.2088981866836548,
-    "learning_rate": 8.67e-06,
-    "num_tokens": 385537.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.5685,
+    "loss": 0.0039,
+    "grad_norm": 0.6367634534835815,
+    "learning_rate": 8.66e-06,
+    "num_tokens": 776968.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.137,
     "step": 1137
   },
   {
-    "loss": 0.0645,
-    "grad_norm": 1.4574052095413208,
-    "learning_rate": 8.66e-06,
-    "num_tokens": 386049.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.569,
+    "loss": 0.052,
+    "grad_norm": 0.8969452381134033,
+    "learning_rate": 8.65e-06,
+    "num_tokens": 777992.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.138,
     "step": 1138
   },
   {
-    "loss": 0.0608,
-    "grad_norm": 1.5976455211639404,
-    "learning_rate": 8.65e-06,
-    "num_tokens": 386561.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.5695,
+    "loss": 0.0432,
+    "grad_norm": 1.0857516527175903,
+    "learning_rate": 8.64e-06,
+    "num_tokens": 779016.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.139,
     "step": 1139
   },
   {
-    "loss": 0.0034,
-    "grad_norm": 0.562424898147583,
-    "learning_rate": 8.64e-06,
-    "num_tokens": 386652.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.57,
+    "loss": 0.0607,
+    "grad_norm": 0.9557591676712036,
+    "learning_rate": 8.63e-06,
+    "num_tokens": 780040.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.1400000000000001,
     "step": 1140
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.5184334516525269,
-    "learning_rate": 8.63e-06,
-    "num_tokens": 386743.0,
+    "loss": 0.0027,
+    "grad_norm": 0.344619482755661,
+    "learning_rate": 8.62e-06,
+    "num_tokens": 780222.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.5705,
+    "epoch": 1.141,
     "step": 1141
   },
   {
-    "loss": 0.0538,
-    "grad_norm": 1.175452709197998,
-    "learning_rate": 8.62e-06,
-    "num_tokens": 387255.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.571,
-    "step": 1142
-  },
-  {
-    "loss": 0.0457,
-    "grad_norm": 1.0699386596679688,
+    "loss": 0.0469,
+    "grad_norm": 0.8497910499572754,
     "learning_rate": 8.61e-06,
-    "num_tokens": 387767.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.5715,
-    "step": 1143
+    "num_tokens": 780825.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.142,
+    "step": 1142
   },
   {
-    "loss": 0.0409,
-    "grad_norm": 1.2275623083114624,
+    "loss": 0.0025,
+    "grad_norm": 0.32798898220062256,
     "learning_rate": 8.6e-06,
-    "num_tokens": 388279.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.572,
-    "step": 1144
+    "num_tokens": 781007.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.143,
+    "step": 1143
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.36210763454437256,
+    "loss": 0.0501,
+    "grad_norm": 0.8057241439819336,
     "learning_rate": 8.59e-06,
-    "num_tokens": 388370.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5725,
-    "step": 1145
+    "num_tokens": 782031.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 1.144,
+    "step": 1144
   },
   {
-    "loss": 0.0506,
-    "grad_norm": 1.1862293481826782,
+    "loss": 0.046,
+    "grad_norm": 0.953300952911377,
     "learning_rate": 8.580000000000001e-06,
-    "num_tokens": 388882.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.573,
-    "step": 1146
+    "num_tokens": 782634.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.145,
+    "step": 1145
   },
   {
-    "loss": 0.0417,
-    "grad_norm": 1.0955649614334106,
+    "loss": 0.0027,
+    "grad_norm": 0.3377975523471832,
     "learning_rate": 8.570000000000001e-06,
-    "num_tokens": 389394.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.5735,
-    "step": 1147
+    "num_tokens": 782816.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.146,
+    "step": 1146
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3166447579860687,
+    "loss": 0.0609,
+    "grad_norm": 1.1738802194595337,
     "learning_rate": 8.560000000000001e-06,
-    "num_tokens": 389485.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.574,
-    "step": 1148
+    "num_tokens": 783419.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 1.147,
+    "step": 1147
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3213079571723938,
+    "loss": 0.0338,
+    "grad_norm": 0.8058255314826965,
     "learning_rate": 8.550000000000001e-06,
-    "num_tokens": 389576.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5745,
-    "step": 1149
+    "num_tokens": 784022.0,
+    "mean_token_accuracy": 0.9883527159690857,
+    "epoch": 1.148,
+    "step": 1148
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.29460856318473816,
+    "loss": 0.0393,
+    "grad_norm": 0.9772086143493652,
     "learning_rate": 8.540000000000001e-06,
-    "num_tokens": 389667.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.575,
-    "step": 1150
+    "num_tokens": 784625.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.149,
+    "step": 1149
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.2646322250366211,
+    "loss": 0.0682,
+    "grad_norm": 0.9261571168899536,
     "learning_rate": 8.530000000000001e-06,
-    "num_tokens": 389758.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5755,
-    "step": 1151
+    "num_tokens": 785649.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.15,
+    "step": 1150
   },
   {
-    "loss": 0.0962,
-    "grad_norm": 1.9064080715179443,
+    "loss": 0.0632,
+    "grad_norm": 1.2219634056091309,
     "learning_rate": 8.52e-06,
-    "num_tokens": 390270.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.576,
-    "step": 1152
+    "num_tokens": 786252.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.151,
+    "step": 1151
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.26078224182128906,
+    "loss": 0.0316,
+    "grad_norm": 0.8042699098587036,
     "learning_rate": 8.51e-06,
-    "num_tokens": 390361.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5765,
-    "step": 1153
+    "num_tokens": 786855.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.152,
+    "step": 1152
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.22155798971652985,
+    "loss": 0.0365,
+    "grad_norm": 0.780549943447113,
     "learning_rate": 8.5e-06,
-    "num_tokens": 390452.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.577,
-    "step": 1154
+    "num_tokens": 787458.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.153,
+    "step": 1153
   },
   {
-    "loss": 0.0462,
-    "grad_norm": 1.282672643661499,
+    "loss": 0.0466,
+    "grad_norm": 0.8015241026878357,
     "learning_rate": 8.49e-06,
-    "num_tokens": 390964.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.5775,
-    "step": 1155
+    "num_tokens": 788061.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.154,
+    "step": 1154
   },
   {
-    "loss": 0.0615,
-    "grad_norm": 1.0272878408432007,
+    "loss": 0.0054,
+    "grad_norm": 0.963787317276001,
     "learning_rate": 8.48e-06,
-    "num_tokens": 391476.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.578,
-    "step": 1156
+    "num_tokens": 788243.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.155,
+    "step": 1155
   },
   {
-    "loss": 0.0391,
-    "grad_norm": 1.081066370010376,
+    "loss": 0.006,
+    "grad_norm": 1.0807055234909058,
     "learning_rate": 8.47e-06,
-    "num_tokens": 391988.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.5785,
-    "step": 1157
+    "num_tokens": 788425.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.156,
+    "step": 1156
   },
   {
-    "loss": 0.0016,
-    "grad_norm": 0.2022254467010498,
+    "loss": 0.0589,
+    "grad_norm": 1.0101304054260254,
     "learning_rate": 8.46e-06,
-    "num_tokens": 392079.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.579,
-    "step": 1158
+    "num_tokens": 789449.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.157,
+    "step": 1157
   },
   {
-    "loss": 0.0647,
-    "grad_norm": 1.203537106513977,
+    "loss": 0.0543,
+    "grad_norm": 0.8502178192138672,
     "learning_rate": 8.45e-06,
-    "num_tokens": 392591.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.5795,
-    "step": 1159
+    "num_tokens": 790052.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.158,
+    "step": 1158
   },
   {
-    "loss": 0.0411,
-    "grad_norm": 1.3823119401931763,
+    "loss": 0.0644,
+    "grad_norm": 1.153565526008606,
     "learning_rate": 8.44e-06,
-    "num_tokens": 393103.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.58,
-    "step": 1160
+    "num_tokens": 791076.0,
+    "mean_token_accuracy": 0.9628180265426636,
+    "epoch": 1.159,
+    "step": 1159
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.23678964376449585,
+    "loss": 0.047,
+    "grad_norm": 1.0197230577468872,
     "learning_rate": 8.43e-06,
-    "num_tokens": 393194.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5805,
-    "step": 1161
+    "num_tokens": 791679.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.16,
+    "step": 1160
   },
   {
-    "loss": 0.0498,
-    "grad_norm": 1.1035040616989136,
+    "loss": 0.0617,
+    "grad_norm": 0.944006621837616,
     "learning_rate": 8.42e-06,
-    "num_tokens": 393706.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.581,
-    "step": 1162
+    "num_tokens": 792703.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 1.161,
+    "step": 1161
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.2826336622238159,
+    "loss": 0.0569,
+    "grad_norm": 0.7898733019828796,
     "learning_rate": 8.41e-06,
-    "num_tokens": 393797.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5815,
-    "step": 1163
+    "num_tokens": 793727.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.162,
+    "step": 1162
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.26219162344932556,
+    "loss": 0.0546,
+    "grad_norm": 1.01863694190979,
     "learning_rate": 8.400000000000001e-06,
-    "num_tokens": 393888.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.582,
-    "step": 1164
+    "num_tokens": 794330.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.163,
+    "step": 1163
   },
   {
-    "loss": 0.0369,
-    "grad_norm": 0.8924168944358826,
+    "loss": 0.0335,
+    "grad_norm": 0.905055820941925,
     "learning_rate": 8.390000000000001e-06,
-    "num_tokens": 394400.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.5825,
-    "step": 1165
+    "num_tokens": 794933.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.164,
+    "step": 1164
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.2968710660934448,
+    "loss": 0.057,
+    "grad_norm": 1.0154438018798828,
     "learning_rate": 8.380000000000001e-06,
-    "num_tokens": 394491.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.583,
-    "step": 1166
+    "num_tokens": 795957.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.165,
+    "step": 1165
   },
   {
-    "loss": 0.0655,
-    "grad_norm": 1.4359571933746338,
+    "loss": 0.0936,
+    "grad_norm": 1.4929184913635254,
     "learning_rate": 8.370000000000001e-06,
-    "num_tokens": 395003.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.5835,
-    "step": 1167
+    "num_tokens": 796981.0,
+    "mean_token_accuracy": 0.9598825573921204,
+    "epoch": 1.166,
+    "step": 1166
   },
   {
-    "loss": 0.0793,
-    "grad_norm": 1.4873827695846558,
+    "loss": 0.0372,
+    "grad_norm": 0.8776635527610779,
     "learning_rate": 8.36e-06,
-    "num_tokens": 395515.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.584,
-    "step": 1168
+    "num_tokens": 797584.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.167,
+    "step": 1167
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.3399635851383209,
+    "loss": 0.0346,
+    "grad_norm": 0.842157244682312,
     "learning_rate": 8.35e-06,
-    "num_tokens": 395606.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5845,
-    "step": 1169
+    "num_tokens": 798187.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.168,
+    "step": 1168
   },
   {
-    "loss": 0.0388,
-    "grad_norm": 1.2504096031188965,
+    "loss": 0.0547,
+    "grad_norm": 0.950747549533844,
     "learning_rate": 8.34e-06,
-    "num_tokens": 396118.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.585,
-    "step": 1170
+    "num_tokens": 798790.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.169,
+    "step": 1169
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.34148266911506653,
+    "loss": 0.0554,
+    "grad_norm": 0.9959940314292908,
     "learning_rate": 8.33e-06,
-    "num_tokens": 396209.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5855,
-    "step": 1171
+    "num_tokens": 799814.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.17,
+    "step": 1170
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.33662110567092896,
+    "loss": 0.0607,
+    "grad_norm": 1.4246129989624023,
     "learning_rate": 8.32e-06,
-    "num_tokens": 396300.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.586,
-    "step": 1172
+    "num_tokens": 800417.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.171,
+    "step": 1171
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.324468731880188,
+    "loss": 0.0451,
+    "grad_norm": 0.8737262487411499,
     "learning_rate": 8.31e-06,
-    "num_tokens": 396391.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5865,
-    "step": 1173
+    "num_tokens": 801020.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.172,
+    "step": 1172
   },
   {
-    "loss": 0.1031,
-    "grad_norm": 1.776872992515564,
+    "loss": 0.0506,
+    "grad_norm": 0.747963547706604,
     "learning_rate": 8.3e-06,
-    "num_tokens": 396903.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.587,
-    "step": 1174
+    "num_tokens": 802044.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.173,
+    "step": 1173
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.27522948384284973,
+    "loss": 0.013,
+    "grad_norm": 1.951322078704834,
     "learning_rate": 8.29e-06,
-    "num_tokens": 396994.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5875,
-    "step": 1175
+    "num_tokens": 802226.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.174,
+    "step": 1174
   },
   {
-    "loss": 0.0625,
-    "grad_norm": 1.0583921670913696,
+    "loss": 0.0392,
+    "grad_norm": 0.8089998960494995,
     "learning_rate": 8.28e-06,
-    "num_tokens": 397506.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.588,
-    "step": 1176
+    "num_tokens": 803250.0,
+    "mean_token_accuracy": 0.9833659529685974,
+    "epoch": 1.175,
+    "step": 1175
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.2976676821708679,
+    "loss": 0.0379,
+    "grad_norm": 0.9302856922149658,
     "learning_rate": 8.27e-06,
-    "num_tokens": 397597.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5885,
-    "step": 1177
+    "num_tokens": 803853.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.176,
+    "step": 1176
   },
   {
-    "loss": 0.0428,
-    "grad_norm": 1.0262646675109863,
+    "loss": 0.0588,
+    "grad_norm": 0.9273074865341187,
     "learning_rate": 8.26e-06,
-    "num_tokens": 398109.0,
-    "mean_token_accuracy": 0.9902152419090271,
-    "epoch": 0.589,
-    "step": 1178
+    "num_tokens": 804877.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.177,
+    "step": 1177
   },
   {
-    "loss": 0.0569,
-    "grad_norm": 1.088004469871521,
+    "loss": 0.0452,
+    "grad_norm": 0.6838861107826233,
     "learning_rate": 8.25e-06,
-    "num_tokens": 398621.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.5895,
-    "step": 1179
+    "num_tokens": 805901.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 1.178,
+    "step": 1178
   },
   {
-    "loss": 0.0617,
-    "grad_norm": 1.422031044960022,
+    "loss": 0.0132,
+    "grad_norm": 1.9745922088623047,
     "learning_rate": 8.24e-06,
-    "num_tokens": 399133.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.59,
-    "step": 1180
+    "num_tokens": 806083.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.179,
+    "step": 1179
   },
   {
-    "loss": 0.0705,
-    "grad_norm": 1.1122493743896484,
+    "loss": 0.0107,
+    "grad_norm": 1.7368767261505127,
     "learning_rate": 8.23e-06,
-    "num_tokens": 399645.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.5905,
-    "step": 1181
+    "num_tokens": 806265.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.18,
+    "step": 1180
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.3706248998641968,
+    "loss": 0.038,
+    "grad_norm": 0.9753760099411011,
     "learning_rate": 8.220000000000001e-06,
-    "num_tokens": 399736.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.591,
-    "step": 1182
+    "num_tokens": 806868.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.181,
+    "step": 1181
   },
   {
-    "loss": 0.0548,
-    "grad_norm": 1.159569501876831,
+    "loss": 0.0572,
+    "grad_norm": 0.8498497009277344,
     "learning_rate": 8.210000000000001e-06,
-    "num_tokens": 400248.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.5915,
-    "step": 1183
+    "num_tokens": 807471.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.182,
+    "step": 1182
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.44550517201423645,
+    "loss": 0.0332,
+    "grad_norm": 0.7482154369354248,
     "learning_rate": 8.2e-06,
-    "num_tokens": 400339.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.592,
-    "step": 1184
+    "num_tokens": 808074.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.183,
+    "step": 1183
   },
   {
-    "loss": 0.0505,
-    "grad_norm": 1.0908255577087402,
+    "loss": 0.0504,
+    "grad_norm": 1.1742054224014282,
     "learning_rate": 8.19e-06,
-    "num_tokens": 400851.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.5925,
-    "step": 1185
+    "num_tokens": 809098.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.184,
+    "step": 1184
   },
   {
-    "loss": 0.0429,
-    "grad_norm": 0.9888002276420593,
+    "loss": 0.0564,
+    "grad_norm": 1.028494954109192,
     "learning_rate": 8.18e-06,
-    "num_tokens": 401363.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.593,
-    "step": 1186
+    "num_tokens": 809701.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.185,
+    "step": 1185
   },
   {
-    "loss": 0.039,
-    "grad_norm": 1.1269707679748535,
+    "loss": 0.0565,
+    "grad_norm": 0.8841472268104553,
     "learning_rate": 8.17e-06,
-    "num_tokens": 401875.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.5935,
-    "step": 1187
+    "num_tokens": 810725.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.186,
+    "step": 1186
   },
   {
-    "loss": 0.0547,
-    "grad_norm": 2.2459864616394043,
+    "loss": 0.0425,
+    "grad_norm": 0.9280575513839722,
     "learning_rate": 8.16e-06,
-    "num_tokens": 402387.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.594,
-    "step": 1188
+    "num_tokens": 811328.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.187,
+    "step": 1187
   },
   {
-    "loss": 0.0648,
-    "grad_norm": 1.141405463218689,
+    "loss": 0.0391,
+    "grad_norm": 0.7514525651931763,
     "learning_rate": 8.15e-06,
-    "num_tokens": 402899.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.5945,
-    "step": 1189
+    "num_tokens": 812352.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.188,
+    "step": 1188
   },
   {
-    "loss": 0.0036,
-    "grad_norm": 0.6154343485832214,
+    "loss": 0.0062,
+    "grad_norm": 1.0712858438491821,
     "learning_rate": 8.14e-06,
-    "num_tokens": 402990.0,
+    "num_tokens": 812534.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.595,
-    "step": 1190
+    "epoch": 1.189,
+    "step": 1189
   },
   {
-    "loss": 0.0037,
-    "grad_norm": 0.607581377029419,
+    "loss": 0.0575,
+    "grad_norm": 0.9916480779647827,
     "learning_rate": 8.13e-06,
-    "num_tokens": 403081.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.5955,
-    "step": 1191
+    "num_tokens": 813558.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.19,
+    "step": 1190
   },
   {
-    "loss": 0.041,
-    "grad_norm": 1.0139696598052979,
+    "loss": 0.0456,
+    "grad_norm": 0.7496938705444336,
     "learning_rate": 8.120000000000002e-06,
-    "num_tokens": 403593.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.596,
-    "step": 1192
+    "num_tokens": 814582.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.191,
+    "step": 1191
   },
   {
-    "loss": 0.0548,
-    "grad_norm": 1.2063956260681152,
+    "loss": 0.0545,
+    "grad_norm": 1.0540683269500732,
     "learning_rate": 8.110000000000002e-06,
-    "num_tokens": 404105.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.5965,
-    "step": 1193
+    "num_tokens": 815185.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.192,
+    "step": 1192
   },
   {
-    "loss": 0.0546,
-    "grad_norm": 1.0185149908065796,
+    "loss": 0.0409,
+    "grad_norm": 0.7678093314170837,
     "learning_rate": 8.1e-06,
-    "num_tokens": 404617.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.597,
-    "step": 1194
+    "num_tokens": 816209.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 1.193,
+    "step": 1193
   },
   {
-    "loss": 0.0846,
-    "grad_norm": 1.5638638734817505,
+    "loss": 0.0573,
+    "grad_norm": 1.1160331964492798,
     "learning_rate": 8.09e-06,
-    "num_tokens": 405129.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.5975,
-    "step": 1195
+    "num_tokens": 816812.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.194,
+    "step": 1194
   },
   {
-    "loss": 0.0397,
-    "grad_norm": 0.9592515826225281,
+    "loss": 0.0063,
+    "grad_norm": 1.0925832986831665,
     "learning_rate": 8.08e-06,
-    "num_tokens": 405641.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.598,
-    "step": 1196
+    "num_tokens": 816994.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.195,
+    "step": 1195
   },
   {
-    "loss": 0.0732,
-    "grad_norm": 2.417308807373047,
+    "loss": 0.0598,
+    "grad_norm": 1.1617772579193115,
     "learning_rate": 8.07e-06,
-    "num_tokens": 406153.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.5985,
-    "step": 1197
+    "num_tokens": 817597.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.196,
+    "step": 1196
   },
   {
-    "loss": 0.0397,
-    "grad_norm": 1.0397586822509766,
+    "loss": 0.047,
+    "grad_norm": 0.9485524296760559,
     "learning_rate": 8.06e-06,
-    "num_tokens": 406665.0,
+    "num_tokens": 818621.0,
     "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.599,
-    "step": 1198
+    "epoch": 1.197,
+    "step": 1197
   },
   {
-    "loss": 0.0539,
-    "grad_norm": 1.0043741464614868,
+    "loss": 0.0481,
+    "grad_norm": 0.8719391822814941,
     "learning_rate": 8.050000000000001e-06,
-    "num_tokens": 407177.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.5995,
-    "step": 1199
+    "num_tokens": 819224.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.198,
+    "step": 1198
   },
   {
-    "loss": 0.0064,
-    "grad_norm": 1.0331615209579468,
+    "loss": 0.0537,
+    "grad_norm": 1.0189318656921387,
     "learning_rate": 8.040000000000001e-06,
-    "num_tokens": 407268.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6,
-    "step": 1200
+    "num_tokens": 819827.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.199,
+    "step": 1199
   },
   {
-    "loss": 0.3439,
-    "grad_norm": 7.151169776916504,
+    "loss": 0.0501,
+    "grad_norm": 1.06423819065094,
     "learning_rate": 8.030000000000001e-06,
-    "num_tokens": 407780.0,
-    "mean_token_accuracy": 0.9099804162979126,
-    "epoch": 0.6005,
-    "step": 1201
+    "num_tokens": 820430.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.2,
+    "step": 1200
   },
   {
-    "loss": 0.3186,
-    "grad_norm": 6.194533348083496,
+    "loss": 0.0399,
+    "grad_norm": 1.01286780834198,
     "learning_rate": 8.020000000000001e-06,
-    "num_tokens": 408292.0,
-    "mean_token_accuracy": 0.9256359934806824,
-    "epoch": 0.601,
-    "step": 1202
+    "num_tokens": 821033.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.201,
+    "step": 1201
   },
   {
-    "loss": 0.0064,
-    "grad_norm": 1.0373780727386475,
+    "loss": 0.0595,
+    "grad_norm": 1.2328540086746216,
     "learning_rate": 8.010000000000001e-06,
-    "num_tokens": 408383.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6015,
-    "step": 1203
+    "num_tokens": 821636.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.202,
+    "step": 1202
   },
   {
-    "loss": 0.0693,
-    "grad_norm": 1.3804030418395996,
+    "loss": 0.0499,
+    "grad_norm": 0.9263268709182739,
     "learning_rate": 8.000000000000001e-06,
-    "num_tokens": 408895.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.602,
-    "step": 1204
+    "num_tokens": 822239.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.203,
+    "step": 1203
   },
   {
     "loss": 0.0063,
-    "grad_norm": 1.0356889963150024,
+    "grad_norm": 1.1311625242233276,
     "learning_rate": 7.990000000000001e-06,
-    "num_tokens": 408986.0,
+    "num_tokens": 822421.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.6025,
-    "step": 1205
+    "epoch": 1.204,
+    "step": 1204
   },
   {
-    "loss": 0.0063,
-    "grad_norm": 1.025659203529358,
+    "loss": 0.0566,
+    "grad_norm": 0.9658464193344116,
     "learning_rate": 7.980000000000002e-06,
-    "num_tokens": 409077.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.603,
-    "step": 1206
+    "num_tokens": 823445.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.205,
+    "step": 1205
   },
   {
-    "loss": 0.1028,
-    "grad_norm": 2.4993162155151367,
+    "loss": 0.0518,
+    "grad_norm": 1.3028377294540405,
     "learning_rate": 7.970000000000002e-06,
-    "num_tokens": 409589.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.6035,
-    "step": 1207
+    "num_tokens": 824048.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.206,
+    "step": 1206
   },
   {
-    "loss": 0.0765,
-    "grad_norm": 1.528414011001587,
+    "loss": 0.0064,
+    "grad_norm": 1.1466141939163208,
     "learning_rate": 7.960000000000002e-06,
-    "num_tokens": 410101.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.604,
-    "step": 1208
+    "num_tokens": 824230.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.207,
+    "step": 1207
   },
   {
-    "loss": 0.0039,
-    "grad_norm": 0.6606444120407104,
+    "loss": 0.0612,
+    "grad_norm": 1.9032516479492188,
     "learning_rate": 7.950000000000002e-06,
-    "num_tokens": 410192.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6045,
-    "step": 1209
+    "num_tokens": 824833.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 1.208,
+    "step": 1208
   },
   {
-    "loss": 0.1021,
-    "grad_norm": 1.9298466444015503,
+    "loss": 0.0466,
+    "grad_norm": 0.9508463740348816,
     "learning_rate": 7.94e-06,
-    "num_tokens": 410704.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.605,
-    "step": 1210
+    "num_tokens": 825436.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.209,
+    "step": 1209
   },
   {
-    "loss": 0.0658,
-    "grad_norm": 1.2403901815414429,
+    "loss": 0.0446,
+    "grad_norm": 0.9122347831726074,
     "learning_rate": 7.93e-06,
-    "num_tokens": 411216.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.6055,
-    "step": 1211
+    "num_tokens": 826039.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.21,
+    "step": 1210
   },
   {
-    "loss": 0.0901,
-    "grad_norm": 2.676560878753662,
+    "loss": 0.0302,
+    "grad_norm": 0.722285270690918,
     "learning_rate": 7.92e-06,
-    "num_tokens": 411728.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.606,
-    "step": 1212
+    "num_tokens": 826642.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.211,
+    "step": 1211
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.3969874083995819,
+    "loss": 0.0435,
+    "grad_norm": 0.8678917288780212,
     "learning_rate": 7.91e-06,
-    "num_tokens": 411819.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6065,
-    "step": 1213
+    "num_tokens": 827245.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.212,
+    "step": 1212
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.3410389721393585,
+    "loss": 0.0485,
+    "grad_norm": 1.0040737390518188,
     "learning_rate": 7.9e-06,
-    "num_tokens": 411910.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.607,
-    "step": 1214
+    "num_tokens": 827848.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.213,
+    "step": 1213
   },
   {
-    "loss": 0.0467,
-    "grad_norm": 1.2688374519348145,
+    "loss": 0.0496,
+    "grad_norm": 0.9628919363021851,
     "learning_rate": 7.89e-06,
-    "num_tokens": 412422.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.6075,
-    "step": 1215
+    "num_tokens": 828451.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.214,
+    "step": 1214
   },
   {
-    "loss": 0.0906,
-    "grad_norm": 1.5839786529541016,
+    "loss": 0.0541,
+    "grad_norm": 1.1007357835769653,
     "learning_rate": 7.88e-06,
-    "num_tokens": 412934.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.608,
-    "step": 1216
+    "num_tokens": 829054.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.215,
+    "step": 1215
   },
   {
-    "loss": 0.0808,
-    "grad_norm": 1.8329588174819946,
+    "loss": 0.0607,
+    "grad_norm": 1.0743118524551392,
     "learning_rate": 7.870000000000001e-06,
-    "num_tokens": 413446.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.6085,
-    "step": 1217
+    "num_tokens": 830078.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.216,
+    "step": 1216
   },
   {
-    "loss": 0.0678,
-    "grad_norm": 1.438069462776184,
+    "loss": 0.0362,
+    "grad_norm": 0.8190649747848511,
     "learning_rate": 7.860000000000001e-06,
-    "num_tokens": 413958.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.609,
-    "step": 1218
+    "num_tokens": 830681.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.217,
+    "step": 1217
   },
   {
-    "loss": 0.0675,
-    "grad_norm": 1.4430946111679077,
+    "loss": 0.0061,
+    "grad_norm": 1.0019081830978394,
     "learning_rate": 7.850000000000001e-06,
-    "num_tokens": 414470.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.6095,
-    "step": 1219
+    "num_tokens": 830863.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.218,
+    "step": 1218
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.29633986949920654,
+    "loss": 0.0062,
+    "grad_norm": 1.036359429359436,
     "learning_rate": 7.840000000000001e-06,
-    "num_tokens": 414561.0,
+    "num_tokens": 831045.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.61,
-    "step": 1220
+    "epoch": 1.219,
+    "step": 1219
   },
   {
-    "loss": 0.0494,
-    "grad_norm": 1.1387202739715576,
+    "loss": 0.0595,
+    "grad_norm": 1.399138331413269,
     "learning_rate": 7.830000000000001e-06,
-    "num_tokens": 415073.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.6105,
+    "num_tokens": 831648.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.22,
+    "step": 1220
+  },
+  {
+    "loss": 0.0539,
+    "grad_norm": 0.9354347586631775,
+    "learning_rate": 7.820000000000001e-06,
+    "num_tokens": 832672.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.221,
     "step": 1221
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.32885608077049255,
-    "learning_rate": 7.820000000000001e-06,
-    "num_tokens": 415164.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.611,
+    "loss": 0.0575,
+    "grad_norm": 1.4165191650390625,
+    "learning_rate": 7.810000000000001e-06,
+    "num_tokens": 833275.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.222,
     "step": 1222
   },
   {
-    "loss": 0.0862,
-    "grad_norm": 2.407383680343628,
-    "learning_rate": 7.810000000000001e-06,
-    "num_tokens": 415676.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.6115,
+    "loss": 0.0555,
+    "grad_norm": 1.097415804862976,
+    "learning_rate": 7.800000000000002e-06,
+    "num_tokens": 833878.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.223,
     "step": 1223
   },
   {
-    "loss": 0.0614,
-    "grad_norm": 1.1128315925598145,
-    "learning_rate": 7.800000000000002e-06,
-    "num_tokens": 416188.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.612,
+    "loss": 0.0422,
+    "grad_norm": 0.8333101272583008,
+    "learning_rate": 7.790000000000002e-06,
+    "num_tokens": 834902.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.224,
     "step": 1224
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.3651196360588074,
-    "learning_rate": 7.790000000000002e-06,
-    "num_tokens": 416279.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6125,
+    "loss": 0.0393,
+    "grad_norm": 0.9399459958076477,
+    "learning_rate": 7.78e-06,
+    "num_tokens": 835505.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.225,
     "step": 1225
   },
   {
-    "loss": 0.0648,
-    "grad_norm": 1.3287708759307861,
-    "learning_rate": 7.78e-06,
-    "num_tokens": 416791.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.613,
+    "loss": 0.042,
+    "grad_norm": 0.7714658975601196,
+    "learning_rate": 7.77e-06,
+    "num_tokens": 836108.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.226,
     "step": 1226
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.3838794231414795,
-    "learning_rate": 7.77e-06,
-    "num_tokens": 416882.0,
+    "loss": 0.0054,
+    "grad_norm": 0.939201831817627,
+    "learning_rate": 7.76e-06,
+    "num_tokens": 836290.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.6135,
+    "epoch": 1.227,
     "step": 1227
   },
   {
-    "loss": 0.0684,
-    "grad_norm": 1.4677760601043701,
-    "learning_rate": 7.76e-06,
-    "num_tokens": 417394.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.614,
+    "loss": 0.0522,
+    "grad_norm": 1.0808459520339966,
+    "learning_rate": 7.75e-06,
+    "num_tokens": 836893.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.228,
     "step": 1228
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.42079463601112366,
-    "learning_rate": 7.75e-06,
-    "num_tokens": 417485.0,
+    "loss": 0.005,
+    "grad_norm": 0.9102663397789001,
+    "learning_rate": 7.74e-06,
+    "num_tokens": 837075.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.6145,
+    "epoch": 1.229,
     "step": 1229
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.42147955298423767,
-    "learning_rate": 7.74e-06,
-    "num_tokens": 417576.0,
+    "loss": 0.0053,
+    "grad_norm": 0.9372754693031311,
+    "learning_rate": 7.73e-06,
+    "num_tokens": 837257.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.615,
+    "epoch": 1.23,
     "step": 1230
   },
   {
-    "loss": 0.0441,
-    "grad_norm": 1.1677274703979492,
-    "learning_rate": 7.73e-06,
-    "num_tokens": 418088.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.6155,
-    "step": 1231
-  },
-  {
-    "loss": 0.0492,
-    "grad_norm": 1.4035431146621704,
+    "loss": 0.0502,
+    "grad_norm": 1.0474785566329956,
     "learning_rate": 7.72e-06,
-    "num_tokens": 418600.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.616,
-    "step": 1232
+    "num_tokens": 837860.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.231,
+    "step": 1231
   },
   {
-    "loss": 0.0671,
-    "grad_norm": 1.9446959495544434,
+    "loss": 0.0519,
+    "grad_norm": 0.8802561163902283,
     "learning_rate": 7.71e-06,
-    "num_tokens": 419112.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.6165,
-    "step": 1233
+    "num_tokens": 838463.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.232,
+    "step": 1232
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.4543871581554413,
+    "loss": 0.051,
+    "grad_norm": 1.0580495595932007,
     "learning_rate": 7.7e-06,
-    "num_tokens": 419203.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.617,
-    "step": 1234
+    "num_tokens": 839066.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.233,
+    "step": 1233
   },
   {
-    "loss": 0.042,
-    "grad_norm": 1.1771857738494873,
+    "loss": 0.0525,
+    "grad_norm": 1.1949350833892822,
     "learning_rate": 7.690000000000001e-06,
-    "num_tokens": 419715.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.6175,
-    "step": 1235
+    "num_tokens": 839669.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.234,
+    "step": 1234
   },
   {
-    "loss": 0.0679,
-    "grad_norm": 1.3713475465774536,
+    "loss": 0.0596,
+    "grad_norm": 0.7280122637748718,
     "learning_rate": 7.680000000000001e-06,
-    "num_tokens": 420227.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.618,
-    "step": 1236
+    "num_tokens": 840693.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.2349999999999999,
+    "step": 1235
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.47350987792015076,
+    "loss": 0.0483,
+    "grad_norm": 0.9881341457366943,
     "learning_rate": 7.670000000000001e-06,
-    "num_tokens": 420318.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6185,
-    "step": 1237
+    "num_tokens": 841296.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.236,
+    "step": 1236
   },
   {
-    "loss": 0.0633,
-    "grad_norm": 1.3524508476257324,
+    "loss": 0.0351,
+    "grad_norm": 0.834136962890625,
     "learning_rate": 7.660000000000001e-06,
-    "num_tokens": 420830.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.619,
-    "step": 1238
+    "num_tokens": 841899.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.237,
+    "step": 1237
   },
   {
-    "loss": 0.0637,
-    "grad_norm": 1.2763797044754028,
+    "loss": 0.0565,
+    "grad_norm": 1.0071011781692505,
     "learning_rate": 7.650000000000001e-06,
-    "num_tokens": 421342.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.6195,
-    "step": 1239
+    "num_tokens": 842502.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.238,
+    "step": 1238
   },
   {
-    "loss": 0.0902,
-    "grad_norm": 1.6739592552185059,
+    "loss": 0.0322,
+    "grad_norm": 1.0965189933776855,
     "learning_rate": 7.640000000000001e-06,
-    "num_tokens": 421854.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.62,
-    "step": 1240
+    "num_tokens": 843105.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.2389999999999999,
+    "step": 1239
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.5534782409667969,
+    "loss": 0.0318,
+    "grad_norm": 0.9356407523155212,
     "learning_rate": 7.630000000000001e-06,
-    "num_tokens": 421945.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6205,
-    "step": 1241
+    "num_tokens": 843708.0,
+    "mean_token_accuracy": 0.9883527159690857,
+    "epoch": 1.24,
+    "step": 1240
   },
   {
-    "loss": 0.0501,
-    "grad_norm": 1.3401867151260376,
+    "loss": 0.0553,
+    "grad_norm": 1.0970121622085571,
     "learning_rate": 7.620000000000001e-06,
-    "num_tokens": 422457.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.621,
-    "step": 1242
+    "num_tokens": 844732.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.241,
+    "step": 1241
   },
   {
-    "loss": 0.046,
-    "grad_norm": 1.1883294582366943,
+    "loss": 0.0544,
+    "grad_norm": 0.7283899188041687,
     "learning_rate": 7.610000000000001e-06,
-    "num_tokens": 422969.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.6215,
-    "step": 1243
+    "num_tokens": 845756.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.242,
+    "step": 1242
   },
   {
-    "loss": 0.0466,
-    "grad_norm": 1.101483941078186,
+    "loss": 0.0511,
+    "grad_norm": 0.9140603542327881,
     "learning_rate": 7.600000000000001e-06,
-    "num_tokens": 423481.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.622,
-    "step": 1244
+    "num_tokens": 846359.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.2429999999999999,
+    "step": 1243
   },
   {
-    "loss": 0.071,
-    "grad_norm": 1.3334777355194092,
+    "loss": 0.0386,
+    "grad_norm": 0.8892003893852234,
     "learning_rate": 7.590000000000001e-06,
-    "num_tokens": 423993.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.6225,
-    "step": 1245
+    "num_tokens": 846962.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.244,
+    "step": 1244
   },
   {
-    "loss": 0.0558,
-    "grad_norm": 1.267762541770935,
+    "loss": 0.0301,
+    "grad_norm": 0.6963894963264465,
     "learning_rate": 7.58e-06,
-    "num_tokens": 424505.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.623,
-    "step": 1246
+    "num_tokens": 847565.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.245,
+    "step": 1245
   },
   {
-    "loss": 0.0658,
-    "grad_norm": 1.4283661842346191,
+    "loss": 0.0589,
+    "grad_norm": 0.8111267685890198,
     "learning_rate": 7.57e-06,
-    "num_tokens": 425017.0,
+    "num_tokens": 848589.0,
     "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.6235,
-    "step": 1247
+    "epoch": 1.246,
+    "step": 1246
   },
   {
-    "loss": 0.0411,
-    "grad_norm": 0.9805395007133484,
+    "loss": 0.0572,
+    "grad_norm": 1.1883255243301392,
     "learning_rate": 7.5600000000000005e-06,
-    "num_tokens": 425529.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.624,
-    "step": 1248
+    "num_tokens": 849192.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.2469999999999999,
+    "step": 1247
   },
   {
-    "loss": 0.0766,
-    "grad_norm": 1.4888850450515747,
+    "loss": 0.0097,
+    "grad_norm": 1.6102426052093506,
     "learning_rate": 7.5500000000000006e-06,
-    "num_tokens": 426041.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.6245,
-    "step": 1249
+    "num_tokens": 849374.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.248,
+    "step": 1248
   },
   {
-    "loss": 0.0055,
-    "grad_norm": 0.9557706713676453,
+    "loss": 0.0468,
+    "grad_norm": 0.7692415118217468,
     "learning_rate": 7.540000000000001e-06,
-    "num_tokens": 426132.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.625,
-    "step": 1250
+    "num_tokens": 849977.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.249,
+    "step": 1249
   },
   {
-    "loss": 0.0054,
-    "grad_norm": 0.9585487842559814,
+    "loss": 0.0584,
+    "grad_norm": 1.3470611572265625,
     "learning_rate": 7.530000000000001e-06,
-    "num_tokens": 426223.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6255,
-    "step": 1251
+    "num_tokens": 850580.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.25,
+    "step": 1250
   },
   {
-    "loss": 0.0538,
-    "grad_norm": 1.1800369024276733,
+    "loss": 0.01,
+    "grad_norm": 1.5853478908538818,
     "learning_rate": 7.520000000000001e-06,
-    "num_tokens": 426735.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.626,
-    "step": 1252
+    "num_tokens": 850762.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.251,
+    "step": 1251
   },
   {
-    "loss": 0.0051,
-    "grad_norm": 0.8553330898284912,
+    "loss": 0.0481,
+    "grad_norm": 0.8128389716148376,
     "learning_rate": 7.510000000000001e-06,
-    "num_tokens": 426826.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6265,
-    "step": 1253
+    "num_tokens": 851365.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.252,
+    "step": 1252
   },
   {
-    "loss": 0.0629,
-    "grad_norm": 1.230909824371338,
+    "loss": 0.0322,
+    "grad_norm": 0.7977066040039062,
     "learning_rate": 7.500000000000001e-06,
-    "num_tokens": 427338.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.627,
-    "step": 1254
+    "num_tokens": 851968.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.2530000000000001,
+    "step": 1253
   },
   {
-    "loss": 0.068,
-    "grad_norm": 1.453507900238037,
+    "loss": 0.0544,
+    "grad_norm": 0.9201311469078064,
     "learning_rate": 7.49e-06,
-    "num_tokens": 427850.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.6275,
-    "step": 1255
+    "num_tokens": 852571.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.254,
+    "step": 1254
   },
   {
-    "loss": 0.0427,
-    "grad_norm": 0.9869980812072754,
+    "loss": 0.0296,
+    "grad_norm": 0.6444401144981384,
     "learning_rate": 7.48e-06,
-    "num_tokens": 428362.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.628,
-    "step": 1256
+    "num_tokens": 853174.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.255,
+    "step": 1255
   },
   {
-    "loss": 0.1017,
-    "grad_norm": 2.1453680992126465,
+    "loss": 0.0629,
+    "grad_norm": 0.9161770939826965,
     "learning_rate": 7.4700000000000005e-06,
-    "num_tokens": 428874.0,
-    "mean_token_accuracy": 0.9549902081489563,
-    "epoch": 0.6285,
-    "step": 1257
+    "num_tokens": 854198.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.256,
+    "step": 1256
   },
   {
-    "loss": 0.0042,
-    "grad_norm": 0.7140144109725952,
+    "loss": 0.0067,
+    "grad_norm": 1.1707040071487427,
     "learning_rate": 7.4600000000000006e-06,
-    "num_tokens": 428965.0,
+    "num_tokens": 854380.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.629,
-    "step": 1258
+    "epoch": 1.2570000000000001,
+    "step": 1257
   },
   {
-    "loss": 0.0616,
-    "grad_norm": 1.021086573600769,
+    "loss": 0.05,
+    "grad_norm": 1.0465596914291382,
     "learning_rate": 7.450000000000001e-06,
-    "num_tokens": 429477.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.6295,
-    "step": 1259
+    "num_tokens": 854983.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.258,
+    "step": 1258
   },
   {
-    "loss": 0.0434,
-    "grad_norm": 1.1894596815109253,
+    "loss": 0.0061,
+    "grad_norm": 1.0755349397659302,
     "learning_rate": 7.440000000000001e-06,
-    "num_tokens": 429989.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.63,
-    "step": 1260
+    "num_tokens": 855165.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.259,
+    "step": 1259
   },
   {
-    "loss": 0.0862,
-    "grad_norm": 2.159723997116089,
+    "loss": 0.0587,
+    "grad_norm": 1.1517828702926636,
     "learning_rate": 7.430000000000001e-06,
-    "num_tokens": 430501.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.6305,
-    "step": 1261
+    "num_tokens": 855768.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.26,
+    "step": 1260
   },
   {
-    "loss": 0.0429,
-    "grad_norm": 1.066892147064209,
+    "loss": 0.0567,
+    "grad_norm": 0.894393265247345,
     "learning_rate": 7.420000000000001e-06,
-    "num_tokens": 431013.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.631,
-    "step": 1262
+    "num_tokens": 856792.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.2610000000000001,
+    "step": 1261
   },
   {
-    "loss": 0.0572,
-    "grad_norm": 1.0095235109329224,
+    "loss": 0.004,
+    "grad_norm": 0.625373899936676,
     "learning_rate": 7.41e-06,
-    "num_tokens": 431525.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.6315,
-    "step": 1263
+    "num_tokens": 856974.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.262,
+    "step": 1262
   },
   {
-    "loss": 0.054,
-    "grad_norm": 1.2086626291275024,
+    "loss": 0.0613,
+    "grad_norm": 1.038960337638855,
     "learning_rate": 7.4e-06,
-    "num_tokens": 432037.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.632,
-    "step": 1264
+    "num_tokens": 857998.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.263,
+    "step": 1263
   },
   {
-    "loss": 0.0046,
-    "grad_norm": 0.7741432189941406,
+    "loss": 0.0648,
+    "grad_norm": 0.9525636434555054,
     "learning_rate": 7.39e-06,
-    "num_tokens": 432128.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6325,
-    "step": 1265
+    "num_tokens": 859022.0,
+    "mean_token_accuracy": 0.9667319059371948,
+    "epoch": 1.264,
+    "step": 1264
   },
   {
-    "loss": 0.0047,
-    "grad_norm": 0.7828612923622131,
+    "loss": 0.036,
+    "grad_norm": 0.9128121733665466,
     "learning_rate": 7.3800000000000005e-06,
-    "num_tokens": 432219.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.633,
-    "step": 1266
+    "num_tokens": 859625.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.2650000000000001,
+    "step": 1265
   },
   {
-    "loss": 0.0045,
-    "grad_norm": 0.7598645687103271,
+    "loss": 0.0565,
+    "grad_norm": 1.1845719814300537,
     "learning_rate": 7.370000000000001e-06,
-    "num_tokens": 432310.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6335,
-    "step": 1267
+    "num_tokens": 860228.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.266,
+    "step": 1266
   },
   {
-    "loss": 0.0046,
-    "grad_norm": 0.7734522819519043,
+    "loss": 0.0655,
+    "grad_norm": 1.0292823314666748,
     "learning_rate": 7.360000000000001e-06,
-    "num_tokens": 432401.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.634,
-    "step": 1268
+    "num_tokens": 861252.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.267,
+    "step": 1267
   },
   {
-    "loss": 0.057,
-    "grad_norm": 1.0973255634307861,
+    "loss": 0.0493,
+    "grad_norm": 1.01980721950531,
     "learning_rate": 7.350000000000001e-06,
-    "num_tokens": 432913.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.6345,
-    "step": 1269
+    "num_tokens": 861855.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.268,
+    "step": 1268
   },
   {
-    "loss": 0.065,
-    "grad_norm": 1.709967017173767,
+    "loss": 0.1008,
+    "grad_norm": 1.9880106449127197,
     "learning_rate": 7.340000000000001e-06,
-    "num_tokens": 433425.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.635,
-    "step": 1270
+    "num_tokens": 862879.0,
+    "mean_token_accuracy": 0.9598825573921204,
+    "epoch": 1.2690000000000001,
+    "step": 1269
   },
   {
-    "loss": 0.0931,
-    "grad_norm": 2.1337525844573975,
+    "loss": 0.0461,
+    "grad_norm": 0.750867486000061,
     "learning_rate": 7.33e-06,
-    "num_tokens": 433937.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.6355,
-    "step": 1271
+    "num_tokens": 863903.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 1.27,
+    "step": 1270
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.4441553056240082,
+    "loss": 0.0514,
+    "grad_norm": 0.8738319277763367,
     "learning_rate": 7.32e-06,
-    "num_tokens": 434028.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.636,
-    "step": 1272
+    "num_tokens": 864506.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.271,
+    "step": 1271
   },
   {
-    "loss": 0.0805,
-    "grad_norm": 3.2075629234313965,
+    "loss": 0.1093,
+    "grad_norm": 2.573967933654785,
     "learning_rate": 7.31e-06,
-    "num_tokens": 434540.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.6365,
-    "step": 1273
+    "num_tokens": 865109.0,
+    "mean_token_accuracy": 0.960066556930542,
+    "epoch": 1.272,
+    "step": 1272
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.4167421758174896,
+    "loss": 0.0375,
+    "grad_norm": 0.7688126564025879,
     "learning_rate": 7.3e-06,
-    "num_tokens": 434631.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.637,
-    "step": 1274
+    "num_tokens": 865712.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.2730000000000001,
+    "step": 1273
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.35469523072242737,
+    "loss": 0.0059,
+    "grad_norm": 0.9865520000457764,
     "learning_rate": 7.2900000000000005e-06,
-    "num_tokens": 434722.0,
+    "num_tokens": 865894.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.6375,
-    "step": 1275
+    "epoch": 1.274,
+    "step": 1274
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.31768423318862915,
+    "loss": 0.0326,
+    "grad_norm": 0.6999955773353577,
     "learning_rate": 7.280000000000001e-06,
-    "num_tokens": 434813.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.638,
-    "step": 1276
+    "num_tokens": 866497.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.275,
+    "step": 1275
   },
   {
-    "loss": 0.0441,
-    "grad_norm": 0.9787921905517578,
+    "loss": 0.0525,
+    "grad_norm": 0.8453314900398254,
     "learning_rate": 7.270000000000001e-06,
-    "num_tokens": 435325.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.6385,
-    "step": 1277
+    "num_tokens": 867521.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.276,
+    "step": 1276
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.2729261517524719,
+    "loss": 0.0537,
+    "grad_norm": 0.8030353784561157,
     "learning_rate": 7.260000000000001e-06,
-    "num_tokens": 435416.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.639,
-    "step": 1278
+    "num_tokens": 868545.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.2770000000000001,
+    "step": 1277
   },
   {
-    "loss": 0.0016,
-    "grad_norm": 0.21043084561824799,
+    "loss": 0.0539,
+    "grad_norm": 1.3158842325210571,
     "learning_rate": 7.25e-06,
-    "num_tokens": 435507.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6395,
-    "step": 1279
+    "num_tokens": 869148.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.278,
+    "step": 1278
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.1971331685781479,
+    "loss": 0.0345,
+    "grad_norm": 0.7475882172584534,
     "learning_rate": 7.24e-06,
-    "num_tokens": 435598.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.64,
-    "step": 1280
+    "num_tokens": 869751.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.279,
+    "step": 1279
   },
   {
-    "loss": 0.0802,
-    "grad_norm": 1.84896719455719,
+    "loss": 0.0326,
+    "grad_norm": 0.7297677397727966,
     "learning_rate": 7.23e-06,
-    "num_tokens": 436110.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.6405,
-    "step": 1281
+    "num_tokens": 870354.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.28,
+    "step": 1280
   },
   {
-    "loss": 0.0687,
-    "grad_norm": 1.369922399520874,
+    "loss": 0.0372,
+    "grad_norm": 0.9404818415641785,
     "learning_rate": 7.22e-06,
-    "num_tokens": 436622.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.641,
-    "step": 1282
+    "num_tokens": 870957.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.2810000000000001,
+    "step": 1281
   },
   {
-    "loss": 0.0014,
-    "grad_norm": 0.16199085116386414,
+    "loss": 0.0079,
+    "grad_norm": 1.2922416925430298,
     "learning_rate": 7.2100000000000004e-06,
-    "num_tokens": 436713.0,
+    "num_tokens": 871139.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.6415,
-    "step": 1283
+    "epoch": 1.282,
+    "step": 1282
   },
   {
-    "loss": 0.0013,
-    "grad_norm": 0.14561891555786133,
+    "loss": 0.0544,
+    "grad_norm": 0.7138064503669739,
     "learning_rate": 7.2000000000000005e-06,
-    "num_tokens": 436804.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.642,
-    "step": 1284
+    "num_tokens": 872163.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.283,
+    "step": 1283
   },
   {
-    "loss": 0.0762,
-    "grad_norm": 2.150111436843872,
+    "loss": 0.0491,
+    "grad_norm": 0.9901664853096008,
     "learning_rate": 7.190000000000001e-06,
-    "num_tokens": 437316.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.6425,
-    "step": 1285
+    "num_tokens": 872766.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.284,
+    "step": 1284
   },
   {
-    "loss": 0.0011,
-    "grad_norm": 0.12219979614019394,
+    "loss": 0.0515,
+    "grad_norm": 0.8993235230445862,
     "learning_rate": 7.180000000000001e-06,
-    "num_tokens": 437407.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.643,
-    "step": 1286
+    "num_tokens": 873790.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.285,
+    "step": 1285
   },
   {
-    "loss": 0.0409,
-    "grad_norm": 1.0275540351867676,
+    "loss": 0.0544,
+    "grad_norm": 1.186691164970398,
     "learning_rate": 7.17e-06,
-    "num_tokens": 437919.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.6435,
-    "step": 1287
+    "num_tokens": 874393.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.286,
+    "step": 1286
   },
   {
-    "loss": 0.0622,
-    "grad_norm": 1.3782963752746582,
+    "loss": 0.057,
+    "grad_norm": 0.7776333689689636,
     "learning_rate": 7.16e-06,
-    "num_tokens": 438431.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.644,
-    "step": 1288
+    "num_tokens": 875417.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 1.287,
+    "step": 1287
   },
   {
-    "loss": 0.0942,
-    "grad_norm": 2.0990819931030273,
+    "loss": 0.06,
+    "grad_norm": 0.8132596015930176,
     "learning_rate": 7.15e-06,
-    "num_tokens": 438943.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.6445,
-    "step": 1289
+    "num_tokens": 876441.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.288,
+    "step": 1288
   },
   {
-    "loss": 0.0556,
-    "grad_norm": 1.1607019901275635,
+    "loss": 0.0471,
+    "grad_norm": 0.9748024940490723,
     "learning_rate": 7.14e-06,
-    "num_tokens": 439455.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.645,
-    "step": 1290
+    "num_tokens": 877044.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.289,
+    "step": 1289
   },
   {
-    "loss": 0.0012,
-    "grad_norm": 0.14383459091186523,
+    "loss": 0.0507,
+    "grad_norm": 0.8249137997627258,
     "learning_rate": 7.13e-06,
-    "num_tokens": 439546.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6455,
-    "step": 1291
+    "num_tokens": 877647.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.29,
+    "step": 1290
   },
   {
-    "loss": 0.0443,
-    "grad_norm": 1.0032017230987549,
+    "loss": 0.0604,
+    "grad_norm": 0.9042787551879883,
     "learning_rate": 7.1200000000000004e-06,
-    "num_tokens": 440058.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.646,
-    "step": 1292
+    "num_tokens": 878671.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.291,
+    "step": 1291
   },
   {
-    "loss": 0.0014,
-    "grad_norm": 0.18446141481399536,
+    "loss": 0.0709,
+    "grad_norm": 1.0456619262695312,
     "learning_rate": 7.1100000000000005e-06,
-    "num_tokens": 440149.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6465,
-    "step": 1293
+    "num_tokens": 879695.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.292,
+    "step": 1292
   },
   {
-    "loss": 0.0014,
-    "grad_norm": 0.19693079590797424,
+    "loss": 0.0509,
+    "grad_norm": 1.0809437036514282,
     "learning_rate": 7.100000000000001e-06,
-    "num_tokens": 440240.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.647,
-    "step": 1294
+    "num_tokens": 880298.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.293,
+    "step": 1293
   },
   {
-    "loss": 0.0486,
-    "grad_norm": 1.2597516775131226,
+    "loss": 0.0466,
+    "grad_norm": 0.8374451398849487,
     "learning_rate": 7.09e-06,
-    "num_tokens": 440752.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.6475,
-    "step": 1295
+    "num_tokens": 880901.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.294,
+    "step": 1294
   },
   {
-    "loss": 0.0014,
-    "grad_norm": 0.1964249163866043,
+    "loss": 0.0396,
+    "grad_norm": 0.6764081716537476,
     "learning_rate": 7.08e-06,
-    "num_tokens": 440843.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.648,
-    "step": 1296
+    "num_tokens": 881925.0,
+    "mean_token_accuracy": 0.985322892665863,
+    "epoch": 1.295,
+    "step": 1295
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.21462222933769226,
+    "loss": 0.047,
+    "grad_norm": 0.7990655899047852,
     "learning_rate": 7.07e-06,
-    "num_tokens": 440934.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6485,
-    "step": 1297
+    "num_tokens": 882528.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.296,
+    "step": 1296
   },
   {
-    "loss": 0.0508,
-    "grad_norm": 1.3977996110916138,
+    "loss": 0.0458,
+    "grad_norm": 0.8706727027893066,
     "learning_rate": 7.06e-06,
-    "num_tokens": 441446.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.649,
-    "step": 1298
+    "num_tokens": 883131.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.297,
+    "step": 1297
   },
   {
-    "loss": 0.0828,
-    "grad_norm": 1.5659841299057007,
+    "loss": 0.0598,
+    "grad_norm": 1.1233471632003784,
     "learning_rate": 7.05e-06,
-    "num_tokens": 441958.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.6495,
-    "step": 1299
+    "num_tokens": 883734.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.298,
+    "step": 1298
   },
   {
-    "loss": 0.0603,
-    "grad_norm": 1.602921724319458,
+    "loss": 0.0504,
+    "grad_norm": 0.7818260192871094,
     "learning_rate": 7.04e-06,
-    "num_tokens": 442470.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.65,
-    "step": 1300
+    "num_tokens": 884758.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 1.299,
+    "step": 1299
   },
   {
-    "loss": 0.0744,
-    "grad_norm": 2.2317163944244385,
+    "loss": 0.0468,
+    "grad_norm": 1.0131233930587769,
     "learning_rate": 7.0300000000000005e-06,
-    "num_tokens": 442982.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.6505,
-    "step": 1301
+    "num_tokens": 885361.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.3,
+    "step": 1300
   },
   {
-    "loss": 0.0561,
-    "grad_norm": 2.125541925430298,
+    "loss": 0.0124,
+    "grad_norm": 1.7857097387313843,
     "learning_rate": 7.0200000000000006e-06,
-    "num_tokens": 443494.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.651,
-    "step": 1302
+    "num_tokens": 885543.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.301,
+    "step": 1301
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.3173121213912964,
+    "loss": 0.0632,
+    "grad_norm": 0.9438235759735107,
     "learning_rate": 7.01e-06,
-    "num_tokens": 443585.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6515,
-    "step": 1303
+    "num_tokens": 886567.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 1.302,
+    "step": 1302
   },
   {
-    "loss": 0.0459,
-    "grad_norm": 1.2071703672409058,
+    "loss": 0.011,
+    "grad_norm": 1.6502615213394165,
     "learning_rate": 7e-06,
-    "num_tokens": 444097.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.652,
-    "step": 1304
+    "num_tokens": 886749.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.303,
+    "step": 1303
   },
   {
-    "loss": 0.0432,
-    "grad_norm": 1.2934582233428955,
+    "loss": 0.0465,
+    "grad_norm": 0.70659339427948,
     "learning_rate": 6.99e-06,
-    "num_tokens": 444609.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.6525,
-    "step": 1305
+    "num_tokens": 887352.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.304,
+    "step": 1304
   },
   {
-    "loss": 0.0489,
-    "grad_norm": 1.1334161758422852,
+    "loss": 0.0471,
+    "grad_norm": 0.7495580911636353,
     "learning_rate": 6.98e-06,
-    "num_tokens": 445121.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.653,
-    "step": 1306
+    "num_tokens": 887955.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.305,
+    "step": 1305
   },
   {
-    "loss": 0.0579,
-    "grad_norm": 0.9369598627090454,
+    "loss": 0.0561,
+    "grad_norm": 0.8991160988807678,
     "learning_rate": 6.97e-06,
-    "num_tokens": 445633.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.6535,
-    "step": 1307
+    "num_tokens": 888558.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.306,
+    "step": 1306
   },
   {
-    "loss": 0.0033,
-    "grad_norm": 0.5776845812797546,
+    "loss": 0.0516,
+    "grad_norm": 1.163590669631958,
     "learning_rate": 6.96e-06,
-    "num_tokens": 445724.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.654,
-    "step": 1308
+    "num_tokens": 889161.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.307,
+    "step": 1307
   },
   {
-    "loss": 0.0569,
-    "grad_norm": 1.3031799793243408,
+    "loss": 0.0524,
+    "grad_norm": 1.1685197353363037,
     "learning_rate": 6.95e-06,
-    "num_tokens": 446236.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.6545,
-    "step": 1309
+    "num_tokens": 890185.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.308,
+    "step": 1308
   },
   {
-    "loss": 0.0037,
-    "grad_norm": 0.6248667240142822,
+    "loss": 0.0619,
+    "grad_norm": 0.846095621585846,
     "learning_rate": 6.9400000000000005e-06,
-    "num_tokens": 446327.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.655,
-    "step": 1310
+    "num_tokens": 891209.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 1.309,
+    "step": 1309
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.5299662947654724,
+    "loss": 0.0447,
+    "grad_norm": 0.8409944176673889,
     "learning_rate": 6.93e-06,
-    "num_tokens": 446418.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6555,
-    "step": 1311
+    "num_tokens": 891812.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.31,
+    "step": 1310
   },
   {
-    "loss": 0.0667,
-    "grad_norm": 1.8433657884597778,
+    "loss": 0.0538,
+    "grad_norm": 1.0099889039993286,
     "learning_rate": 6.92e-06,
-    "num_tokens": 446930.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.656,
-    "step": 1312
+    "num_tokens": 892836.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.311,
+    "step": 1311
   },
   {
-    "loss": 0.0577,
-    "grad_norm": 1.1226876974105835,
+    "loss": 0.0549,
+    "grad_norm": 0.7870184779167175,
     "learning_rate": 6.91e-06,
-    "num_tokens": 447442.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.6565,
-    "step": 1313
+    "num_tokens": 893860.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.312,
+    "step": 1312
   },
   {
-    "loss": 0.0567,
-    "grad_norm": 1.1603243350982666,
+    "loss": 0.0507,
+    "grad_norm": 0.7824894785881042,
     "learning_rate": 6.9e-06,
-    "num_tokens": 447954.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.657,
-    "step": 1314
+    "num_tokens": 894884.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.313,
+    "step": 1313
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.5435492992401123,
+    "loss": 0.0293,
+    "grad_norm": 0.7371014356613159,
     "learning_rate": 6.89e-06,
-    "num_tokens": 448045.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6575,
-    "step": 1315
+    "num_tokens": 895487.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.314,
+    "step": 1314
   },
   {
-    "loss": 0.0606,
-    "grad_norm": 0.9929336905479431,
+    "loss": 0.0673,
+    "grad_norm": 1.400519609451294,
     "learning_rate": 6.88e-06,
-    "num_tokens": 448557.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.658,
-    "step": 1316
+    "num_tokens": 896511.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 1.315,
+    "step": 1315
   },
   {
-    "loss": 0.0036,
-    "grad_norm": 0.6169335842132568,
+    "loss": 0.0508,
+    "grad_norm": 0.8923640251159668,
     "learning_rate": 6.870000000000001e-06,
-    "num_tokens": 448648.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6585,
-    "step": 1317
+    "num_tokens": 897114.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.316,
+    "step": 1316
   },
   {
-    "loss": 0.0649,
-    "grad_norm": 1.2230188846588135,
+    "loss": 0.1169,
+    "grad_norm": 1.8647280931472778,
     "learning_rate": 6.860000000000001e-06,
-    "num_tokens": 449160.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.659,
-    "step": 1318
+    "num_tokens": 898138.0,
+    "mean_token_accuracy": 0.9589040875434875,
+    "epoch": 1.317,
+    "step": 1317
   },
   {
-    "loss": 0.0613,
-    "grad_norm": 1.0680222511291504,
+    "loss": 0.0091,
+    "grad_norm": 1.4598783254623413,
     "learning_rate": 6.850000000000001e-06,
-    "num_tokens": 449672.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.6595,
-    "step": 1319
+    "num_tokens": 898320.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.318,
+    "step": 1318
   },
   {
-    "loss": 0.0455,
-    "grad_norm": 1.529793620109558,
+    "loss": 0.0641,
+    "grad_norm": 1.6538336277008057,
     "learning_rate": 6.8400000000000014e-06,
-    "num_tokens": 450184.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.66,
-    "step": 1320
+    "num_tokens": 898923.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 1.319,
+    "step": 1319
   },
   {
-    "loss": 0.0036,
-    "grad_norm": 0.614677906036377,
+    "loss": 0.039,
+    "grad_norm": 0.976009726524353,
     "learning_rate": 6.830000000000001e-06,
-    "num_tokens": 450275.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6605,
-    "step": 1321
+    "num_tokens": 899526.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.32,
+    "step": 1320
   },
   {
-    "loss": 0.074,
-    "grad_norm": 2.1550259590148926,
+    "loss": 0.0323,
+    "grad_norm": 0.9658445715904236,
     "learning_rate": 6.820000000000001e-06,
-    "num_tokens": 450787.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.661,
-    "step": 1322
+    "num_tokens": 900129.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.321,
+    "step": 1321
   },
   {
-    "loss": 0.0541,
-    "grad_norm": 0.9593685269355774,
+    "loss": 0.0093,
+    "grad_norm": 1.460464596748352,
     "learning_rate": 6.810000000000001e-06,
-    "num_tokens": 451299.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.6615,
-    "step": 1323
+    "num_tokens": 900311.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.322,
+    "step": 1322
   },
   {
-    "loss": 0.0036,
-    "grad_norm": 0.5768935084342957,
+    "loss": 0.0592,
+    "grad_norm": 0.9687524437904358,
     "learning_rate": 6.800000000000001e-06,
-    "num_tokens": 451390.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.662,
-    "step": 1324
+    "num_tokens": 901335.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.323,
+    "step": 1323
   },
   {
-    "loss": 0.0465,
-    "grad_norm": 1.2158730030059814,
+    "loss": 0.0552,
+    "grad_norm": 0.7118176817893982,
     "learning_rate": 6.790000000000001e-06,
-    "num_tokens": 451902.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.6625,
-    "step": 1325
+    "num_tokens": 902359.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.324,
+    "step": 1324
   },
   {
-    "loss": 0.0438,
-    "grad_norm": 1.1586334705352783,
+    "loss": 0.0549,
+    "grad_norm": 0.6859893202781677,
     "learning_rate": 6.780000000000001e-06,
-    "num_tokens": 452414.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.663,
-    "step": 1326
+    "num_tokens": 903383.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.325,
+    "step": 1325
   },
   {
-    "loss": 0.0444,
-    "grad_norm": 1.4859849214553833,
+    "loss": 0.0073,
+    "grad_norm": 1.21769380569458,
     "learning_rate": 6.770000000000001e-06,
-    "num_tokens": 452926.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.6635,
-    "step": 1327
+    "num_tokens": 903565.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.326,
+    "step": 1326
   },
   {
-    "loss": 0.0403,
-    "grad_norm": 1.1270227432250977,
+    "loss": 0.0595,
+    "grad_norm": 0.9237185716629028,
     "learning_rate": 6.760000000000001e-06,
-    "num_tokens": 453438.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.664,
-    "step": 1328
+    "num_tokens": 904589.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 1.327,
+    "step": 1327
   },
   {
-    "loss": 0.004,
-    "grad_norm": 0.6430424451828003,
+    "loss": 0.055,
+    "grad_norm": 0.8631585240364075,
     "learning_rate": 6.750000000000001e-06,
-    "num_tokens": 453529.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6645,
-    "step": 1329
+    "num_tokens": 905613.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.328,
+    "step": 1328
   },
   {
-    "loss": 0.0906,
-    "grad_norm": 1.5925347805023193,
+    "loss": 0.0595,
+    "grad_norm": 1.1469013690948486,
     "learning_rate": 6.740000000000001e-06,
-    "num_tokens": 454041.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.665,
-    "step": 1330
+    "num_tokens": 906216.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.329,
+    "step": 1329
   },
   {
-    "loss": 0.0422,
-    "grad_norm": 0.9977685213088989,
+    "loss": 0.0066,
+    "grad_norm": 1.1101781129837036,
     "learning_rate": 6.730000000000001e-06,
-    "num_tokens": 454553.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.6655,
-    "step": 1331
+    "num_tokens": 906398.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.33,
+    "step": 1330
   },
   {
-    "loss": 0.0564,
-    "grad_norm": 1.1696628332138062,
+    "loss": 0.0598,
+    "grad_norm": 0.9575704336166382,
     "learning_rate": 6.720000000000001e-06,
-    "num_tokens": 455065.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.666,
-    "step": 1332
+    "num_tokens": 907422.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.331,
+    "step": 1331
   },
   {
-    "loss": 0.0518,
-    "grad_norm": 0.9724094271659851,
+    "loss": 0.0584,
+    "grad_norm": 1.1068741083145142,
     "learning_rate": 6.710000000000001e-06,
-    "num_tokens": 455577.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.6665,
-    "step": 1333
+    "num_tokens": 908025.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.332,
+    "step": 1332
   },
   {
-    "loss": 0.0047,
-    "grad_norm": 0.7779951095581055,
+    "loss": 0.0558,
+    "grad_norm": 0.8627570271492004,
     "learning_rate": 6.700000000000001e-06,
-    "num_tokens": 455668.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.667,
-    "step": 1334
+    "num_tokens": 909049.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.333,
+    "step": 1333
   },
   {
-    "loss": 0.0043,
-    "grad_norm": 0.7115391492843628,
+    "loss": 0.0055,
+    "grad_norm": 0.9423507452011108,
     "learning_rate": 6.690000000000001e-06,
-    "num_tokens": 455759.0,
+    "num_tokens": 909231.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.6675,
-    "step": 1335
+    "epoch": 1.334,
+    "step": 1334
   },
   {
-    "loss": 0.3534,
-    "grad_norm": 6.629246234893799,
+    "loss": 0.0363,
+    "grad_norm": 0.8017407655715942,
     "learning_rate": 6.680000000000001e-06,
-    "num_tokens": 456271.0,
-    "mean_token_accuracy": 0.9197651743888855,
-    "epoch": 0.668,
-    "step": 1336
+    "num_tokens": 909834.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.335,
+    "step": 1335
   },
   {
-    "loss": 0.0038,
-    "grad_norm": 0.6219172477722168,
+    "loss": 0.066,
+    "grad_norm": 1.1265746355056763,
     "learning_rate": 6.6700000000000005e-06,
-    "num_tokens": 456362.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6685,
-    "step": 1337
+    "num_tokens": 910858.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.336,
+    "step": 1336
   },
   {
-    "loss": 0.0041,
-    "grad_norm": 0.6817074418067932,
+    "loss": 0.0996,
+    "grad_norm": 2.5847702026367188,
     "learning_rate": 6.660000000000001e-06,
-    "num_tokens": 456453.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.669,
-    "step": 1338
+    "num_tokens": 911461.0,
+    "mean_token_accuracy": 0.9633943438529968,
+    "epoch": 1.337,
+    "step": 1337
   },
   {
-    "loss": 0.0601,
-    "grad_norm": 1.2284682989120483,
+    "loss": 0.0559,
+    "grad_norm": 0.8754604458808899,
     "learning_rate": 6.650000000000001e-06,
-    "num_tokens": 456965.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.6695,
-    "step": 1339
+    "num_tokens": 912064.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.338,
+    "step": 1338
   },
   {
-    "loss": 0.0585,
-    "grad_norm": 1.3272614479064941,
+    "loss": 0.0636,
+    "grad_norm": 0.9931411743164062,
     "learning_rate": 6.640000000000001e-06,
-    "num_tokens": 457477.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.67,
-    "step": 1340
+    "num_tokens": 913088.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 1.339,
+    "step": 1339
   },
   {
-    "loss": 0.0417,
-    "grad_norm": 0.929707944393158,
+    "loss": 0.0555,
+    "grad_norm": 1.157425880432129,
     "learning_rate": 6.630000000000001e-06,
-    "num_tokens": 457989.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.6705,
-    "step": 1341
+    "num_tokens": 913691.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.34,
+    "step": 1340
   },
   {
-    "loss": 0.0768,
-    "grad_norm": 1.2148957252502441,
+    "loss": 0.0495,
+    "grad_norm": 0.7949211001396179,
     "learning_rate": 6.620000000000001e-06,
-    "num_tokens": 458501.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.671,
-    "step": 1342
+    "num_tokens": 914294.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.341,
+    "step": 1341
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.4916832149028778,
+    "loss": 0.0557,
+    "grad_norm": 0.7969265580177307,
     "learning_rate": 6.610000000000001e-06,
-    "num_tokens": 458592.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6715,
-    "step": 1343
+    "num_tokens": 915318.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.342,
+    "step": 1342
   },
   {
-    "loss": 0.0659,
-    "grad_norm": 1.1595323085784912,
+    "loss": 0.0453,
+    "grad_norm": 0.9040102958679199,
     "learning_rate": 6.600000000000001e-06,
-    "num_tokens": 459104.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.672,
-    "step": 1344
+    "num_tokens": 915921.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.343,
+    "step": 1343
   },
   {
-    "loss": 0.0669,
-    "grad_norm": 1.3607900142669678,
+    "loss": 0.0884,
+    "grad_norm": 1.350819706916809,
     "learning_rate": 6.5900000000000004e-06,
-    "num_tokens": 459616.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.6725,
-    "step": 1345
+    "num_tokens": 916945.0,
+    "mean_token_accuracy": 0.965753436088562,
+    "epoch": 1.3439999999999999,
+    "step": 1344
   },
   {
-    "loss": 0.0843,
-    "grad_norm": 2.730896472930908,
+    "loss": 0.0554,
+    "grad_norm": 1.2525602579116821,
     "learning_rate": 6.5800000000000005e-06,
-    "num_tokens": 460128.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.673,
-    "step": 1346
+    "num_tokens": 917548.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.345,
+    "step": 1345
   },
   {
-    "loss": 0.0587,
-    "grad_norm": 1.2983198165893555,
+    "loss": 0.0058,
+    "grad_norm": 0.9376251697540283,
     "learning_rate": 6.570000000000001e-06,
-    "num_tokens": 460640.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.6735,
-    "step": 1347
+    "num_tokens": 917730.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.346,
+    "step": 1346
   },
   {
-    "loss": 0.0675,
-    "grad_norm": 1.475829839706421,
+    "loss": 0.0063,
+    "grad_norm": 1.013806700706482,
     "learning_rate": 6.560000000000001e-06,
-    "num_tokens": 461152.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.674,
-    "step": 1348
+    "num_tokens": 917912.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.347,
+    "step": 1347
   },
   {
-    "loss": 0.0034,
-    "grad_norm": 0.569835364818573,
+    "loss": 0.0503,
+    "grad_norm": 1.1062885522842407,
     "learning_rate": 6.550000000000001e-06,
-    "num_tokens": 461243.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6745,
-    "step": 1349
+    "num_tokens": 918515.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.3479999999999999,
+    "step": 1348
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.5171738862991333,
+    "loss": 0.0578,
+    "grad_norm": 0.8600636720657349,
     "learning_rate": 6.540000000000001e-06,
-    "num_tokens": 461334.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.675,
-    "step": 1350
+    "num_tokens": 919539.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.349,
+    "step": 1349
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.5472842454910278,
+    "loss": 0.0387,
+    "grad_norm": 0.9621451497077942,
     "learning_rate": 6.530000000000001e-06,
-    "num_tokens": 461425.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6755,
-    "step": 1351
+    "num_tokens": 920142.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.35,
+    "step": 1350
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.4868464767932892,
+    "loss": 0.0349,
+    "grad_norm": 0.8627477288246155,
     "learning_rate": 6.520000000000001e-06,
-    "num_tokens": 461516.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.676,
-    "step": 1352
+    "num_tokens": 920745.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.351,
+    "step": 1351
   },
   {
-    "loss": 0.0616,
-    "grad_norm": 1.1753767728805542,
+    "loss": 0.0854,
+    "grad_norm": 1.6566712856292725,
     "learning_rate": 6.51e-06,
-    "num_tokens": 462028.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.6765,
-    "step": 1353
+    "num_tokens": 921769.0,
+    "mean_token_accuracy": 0.9628180265426636,
+    "epoch": 1.3519999999999999,
+    "step": 1352
   },
   {
-    "loss": 0.05,
-    "grad_norm": 1.306359052658081,
+    "loss": 0.0449,
+    "grad_norm": 0.7205953598022461,
     "learning_rate": 6.5000000000000004e-06,
-    "num_tokens": 462540.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.677,
-    "step": 1354
+    "num_tokens": 922793.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.353,
+    "step": 1353
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.4471572935581207,
+    "loss": 0.0332,
+    "grad_norm": 0.8109530806541443,
     "learning_rate": 6.4900000000000005e-06,
-    "num_tokens": 462631.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6775,
-    "step": 1355
+    "num_tokens": 923396.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.354,
+    "step": 1354
   },
   {
-    "loss": 0.0535,
-    "grad_norm": 1.1857725381851196,
+    "loss": 0.0056,
+    "grad_norm": 0.9386361837387085,
     "learning_rate": 6.480000000000001e-06,
-    "num_tokens": 463143.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.678,
-    "step": 1356
+    "num_tokens": 923578.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.355,
+    "step": 1355
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.39148810505867004,
+    "loss": 0.0366,
+    "grad_norm": 0.8277124762535095,
     "learning_rate": 6.470000000000001e-06,
-    "num_tokens": 463234.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6785,
-    "step": 1357
+    "num_tokens": 924181.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.3559999999999999,
+    "step": 1356
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3375743329524994,
+    "loss": 0.0456,
+    "grad_norm": 1.019851803779602,
     "learning_rate": 6.460000000000001e-06,
-    "num_tokens": 463325.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.679,
-    "step": 1358
+    "num_tokens": 924784.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.357,
+    "step": 1357
   },
   {
-    "loss": 0.0601,
-    "grad_norm": 3.349716901779175,
+    "loss": 0.0054,
+    "grad_norm": 0.8904734253883362,
     "learning_rate": 6.450000000000001e-06,
-    "num_tokens": 463837.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.6795,
-    "step": 1359
+    "num_tokens": 924966.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.358,
+    "step": 1358
   },
   {
-    "loss": 0.077,
-    "grad_norm": 1.3602453470230103,
+    "loss": 0.0544,
+    "grad_norm": 0.9087153673171997,
     "learning_rate": 6.440000000000001e-06,
-    "num_tokens": 464349.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.68,
-    "step": 1360
+    "num_tokens": 925569.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.359,
+    "step": 1359
   },
   {
-    "loss": 0.0482,
-    "grad_norm": 1.1098014116287231,
+    "loss": 0.0392,
+    "grad_norm": 0.8872094750404358,
     "learning_rate": 6.43e-06,
-    "num_tokens": 464861.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.6805,
-    "step": 1361
+    "num_tokens": 926172.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.3599999999999999,
+    "step": 1360
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.3053341507911682,
+    "loss": 0.0504,
+    "grad_norm": 0.6818045377731323,
     "learning_rate": 6.42e-06,
-    "num_tokens": 464952.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.681,
-    "step": 1362
+    "num_tokens": 927196.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.361,
+    "step": 1361
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.3125056326389313,
+    "loss": 0.0492,
+    "grad_norm": 1.2012197971343994,
     "learning_rate": 6.4100000000000005e-06,
-    "num_tokens": 465043.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6815,
-    "step": 1363
+    "num_tokens": 927799.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.362,
+    "step": 1362
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.28826457262039185,
+    "loss": 0.052,
+    "grad_norm": 0.7941383719444275,
     "learning_rate": 6.4000000000000006e-06,
-    "num_tokens": 465134.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.682,
-    "step": 1364
+    "num_tokens": 928823.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.363,
+    "step": 1363
   },
   {
-    "loss": 0.0652,
-    "grad_norm": 1.4113070964813232,
+    "loss": 0.0337,
+    "grad_norm": 0.8198418617248535,
     "learning_rate": 6.390000000000001e-06,
-    "num_tokens": 465646.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.6825,
-    "step": 1365
+    "num_tokens": 929426.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.3639999999999999,
+    "step": 1364
   },
   {
-    "loss": 0.0467,
-    "grad_norm": 1.2754263877868652,
+    "loss": 0.0499,
+    "grad_norm": 0.9409139156341553,
     "learning_rate": 6.380000000000001e-06,
-    "num_tokens": 466158.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.683,
-    "step": 1366
+    "num_tokens": 930029.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.365,
+    "step": 1365
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.2621810734272003,
+    "loss": 0.0056,
+    "grad_norm": 0.9511061906814575,
     "learning_rate": 6.370000000000001e-06,
-    "num_tokens": 466249.0,
+    "num_tokens": 930211.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.6835,
-    "step": 1367
+    "epoch": 1.366,
+    "step": 1366
   },
   {
-    "loss": 0.0658,
-    "grad_norm": 1.0557119846343994,
+    "loss": 0.046,
+    "grad_norm": 1.0836243629455566,
     "learning_rate": 6.360000000000001e-06,
-    "num_tokens": 466761.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.684,
-    "step": 1368
+    "num_tokens": 930814.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.367,
+    "step": 1367
   },
   {
-    "loss": 0.0567,
-    "grad_norm": 1.4838411808013916,
+    "loss": 0.0457,
+    "grad_norm": 0.8588566184043884,
     "learning_rate": 6.35e-06,
-    "num_tokens": 467273.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.6845,
-    "step": 1369
+    "num_tokens": 931838.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 1.3679999999999999,
+    "step": 1368
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.26117855310440063,
+    "loss": 0.034,
+    "grad_norm": 0.7359830141067505,
     "learning_rate": 6.34e-06,
-    "num_tokens": 467364.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.685,
-    "step": 1370
+    "num_tokens": 932441.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.369,
+    "step": 1369
   },
   {
-    "loss": 0.0447,
-    "grad_norm": 1.1064739227294922,
+    "loss": 0.0541,
+    "grad_norm": 1.353061318397522,
     "learning_rate": 6.33e-06,
-    "num_tokens": 467876.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.6855,
-    "step": 1371
+    "num_tokens": 933044.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.37,
+    "step": 1370
   },
   {
-    "loss": 0.0435,
-    "grad_norm": 1.063262939453125,
+    "loss": 0.0498,
+    "grad_norm": 1.1353765726089478,
     "learning_rate": 6.3200000000000005e-06,
-    "num_tokens": 468388.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.686,
-    "step": 1372
+    "num_tokens": 933647.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.371,
+    "step": 1371
   },
   {
-    "loss": 0.066,
-    "grad_norm": 1.1504032611846924,
+    "loss": 0.0054,
+    "grad_norm": 0.9213358759880066,
     "learning_rate": 6.3100000000000006e-06,
-    "num_tokens": 468900.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.6865,
-    "step": 1373
+    "num_tokens": 933829.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.3719999999999999,
+    "step": 1372
   },
   {
-    "loss": 0.0641,
-    "grad_norm": 1.203201174736023,
+    "loss": 0.0595,
+    "grad_norm": 1.0413357019424438,
     "learning_rate": 6.300000000000001e-06,
-    "num_tokens": 469412.0,
+    "num_tokens": 934853.0,
     "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.687,
-    "step": 1374
+    "epoch": 1.373,
+    "step": 1373
   },
   {
-    "loss": 0.0585,
-    "grad_norm": 1.2477880716323853,
+    "loss": 0.0501,
+    "grad_norm": 0.8945645689964294,
     "learning_rate": 6.290000000000001e-06,
-    "num_tokens": 469924.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.6875,
-    "step": 1375
+    "num_tokens": 935456.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.374,
+    "step": 1374
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.4655078947544098,
+    "loss": 0.0982,
+    "grad_norm": 1.3816639184951782,
     "learning_rate": 6.280000000000001e-06,
-    "num_tokens": 470015.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.688,
-    "step": 1376
+    "num_tokens": 936480.0,
+    "mean_token_accuracy": 0.9637964963912964,
+    "epoch": 1.375,
+    "step": 1375
   },
   {
-    "loss": 0.0602,
-    "grad_norm": 1.341115951538086,
+    "loss": 0.0592,
+    "grad_norm": 0.8560639023780823,
     "learning_rate": 6.27e-06,
-    "num_tokens": 470527.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.6885,
-    "step": 1377
+    "num_tokens": 937504.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.376,
+    "step": 1376
   },
   {
-    "loss": 0.0904,
-    "grad_norm": 2.366762399673462,
+    "loss": 0.0542,
+    "grad_norm": 1.0596678256988525,
     "learning_rate": 6.26e-06,
-    "num_tokens": 471039.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.689,
-    "step": 1378
+    "num_tokens": 938107.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.377,
+    "step": 1377
   },
   {
-    "loss": 0.0033,
-    "grad_norm": 0.6076349020004272,
+    "loss": 0.0616,
+    "grad_norm": 1.3990719318389893,
     "learning_rate": 6.25e-06,
-    "num_tokens": 471130.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6895,
-    "step": 1379
+    "num_tokens": 939131.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.3780000000000001,
+    "step": 1378
   },
   {
-    "loss": 0.0907,
-    "grad_norm": 1.9339498281478882,
+    "loss": 0.0487,
+    "grad_norm": 0.9481455087661743,
     "learning_rate": 6.24e-06,
-    "num_tokens": 471642.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.69,
-    "step": 1380
+    "num_tokens": 939734.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.379,
+    "step": 1379
   },
   {
-    "loss": 0.0864,
-    "grad_norm": 1.780813217163086,
+    "loss": 0.0586,
+    "grad_norm": 0.9030970335006714,
     "learning_rate": 6.2300000000000005e-06,
-    "num_tokens": 472154.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.6905,
-    "step": 1381
+    "num_tokens": 940758.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.38,
+    "step": 1380
   },
   {
-    "loss": 0.0033,
-    "grad_norm": 0.6028679609298706,
+    "loss": 0.0461,
+    "grad_norm": 0.8725113272666931,
     "learning_rate": 6.220000000000001e-06,
-    "num_tokens": 472245.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.691,
-    "step": 1382
+    "num_tokens": 941361.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.381,
+    "step": 1381
   },
   {
-    "loss": 0.0542,
-    "grad_norm": 1.0088207721710205,
+    "loss": 0.0328,
+    "grad_norm": 0.7602605819702148,
     "learning_rate": 6.210000000000001e-06,
-    "num_tokens": 472757.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.6915,
-    "step": 1383
+    "num_tokens": 941964.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.3820000000000001,
+    "step": 1382
   },
   {
-    "loss": 0.0758,
-    "grad_norm": 1.5442019701004028,
+    "loss": 0.0389,
+    "grad_norm": 0.8838405013084412,
     "learning_rate": 6.200000000000001e-06,
-    "num_tokens": 473269.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.692,
-    "step": 1384
+    "num_tokens": 942988.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.383,
+    "step": 1383
   },
   {
-    "loss": 0.0034,
-    "grad_norm": 0.6019788980484009,
+    "loss": 0.0453,
+    "grad_norm": 0.9330336451530457,
     "learning_rate": 6.190000000000001e-06,
-    "num_tokens": 473360.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6925,
-    "step": 1385
+    "num_tokens": 943591.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.384,
+    "step": 1384
   },
   {
-    "loss": 0.277,
-    "grad_norm": 5.171119689941406,
+    "loss": 0.0556,
+    "grad_norm": 0.8908242583274841,
     "learning_rate": 6.18e-06,
-    "num_tokens": 473872.0,
-    "mean_token_accuracy": 0.9295498728752136,
-    "epoch": 0.693,
-    "step": 1386
+    "num_tokens": 944615.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.385,
+    "step": 1385
   },
   {
-    "loss": 0.0036,
-    "grad_norm": 0.6451438665390015,
+    "loss": 0.0366,
+    "grad_norm": 0.6753963232040405,
     "learning_rate": 6.17e-06,
-    "num_tokens": 473963.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6935,
-    "step": 1387
+    "num_tokens": 945639.0,
+    "mean_token_accuracy": 0.9863013625144958,
+    "epoch": 1.3860000000000001,
+    "step": 1386
   },
   {
-    "loss": 0.0037,
-    "grad_norm": 0.6643303036689758,
+    "loss": 0.0567,
+    "grad_norm": 1.027570128440857,
     "learning_rate": 6.16e-06,
-    "num_tokens": 474054.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.694,
-    "step": 1388
+    "num_tokens": 946663.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.387,
+    "step": 1387
   },
   {
-    "loss": 0.0034,
-    "grad_norm": 0.6205865740776062,
+    "loss": 0.031,
+    "grad_norm": 0.7927929162979126,
     "learning_rate": 6.15e-06,
-    "num_tokens": 474145.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6945,
-    "step": 1389
+    "num_tokens": 947266.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.388,
+    "step": 1388
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.4953503906726837,
+    "loss": 0.0588,
+    "grad_norm": 1.1400188207626343,
     "learning_rate": 6.1400000000000005e-06,
-    "num_tokens": 474236.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.695,
-    "step": 1390
+    "num_tokens": 947869.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 1.389,
+    "step": 1389
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.46802619099617004,
+    "loss": 0.054,
+    "grad_norm": 0.7212454676628113,
     "learning_rate": 6.130000000000001e-06,
-    "num_tokens": 474327.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.6955,
-    "step": 1391
+    "num_tokens": 948893.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.3900000000000001,
+    "step": 1390
   },
   {
-    "loss": 0.0908,
-    "grad_norm": 1.535525918006897,
+    "loss": 0.0125,
+    "grad_norm": 1.9306414127349854,
     "learning_rate": 6.120000000000001e-06,
-    "num_tokens": 474839.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.696,
-    "step": 1392
+    "num_tokens": 949075.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.391,
+    "step": 1391
   },
   {
-    "loss": 0.0417,
-    "grad_norm": 0.9248743653297424,
+    "loss": 0.0132,
+    "grad_norm": 1.9667447805404663,
     "learning_rate": 6.110000000000001e-06,
-    "num_tokens": 475351.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.6965,
-    "step": 1393
+    "num_tokens": 949257.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.392,
+    "step": 1392
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.3165223300457001,
+    "loss": 0.0455,
+    "grad_norm": 0.7732621431350708,
     "learning_rate": 6.1e-06,
-    "num_tokens": 475442.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.697,
-    "step": 1394
+    "num_tokens": 950281.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.393,
+    "step": 1393
   },
   {
-    "loss": 0.0542,
-    "grad_norm": 0.9654661417007446,
+    "loss": 0.0593,
+    "grad_norm": 1.3347744941711426,
     "learning_rate": 6.09e-06,
-    "num_tokens": 475954.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.6975,
-    "step": 1395
+    "num_tokens": 950884.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 1.3940000000000001,
+    "step": 1394
   },
   {
-    "loss": 0.0692,
-    "grad_norm": 1.3097866773605347,
+    "loss": 0.0312,
+    "grad_norm": 0.7966394424438477,
     "learning_rate": 6.08e-06,
-    "num_tokens": 476466.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.698,
-    "step": 1396
+    "num_tokens": 951487.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.395,
+    "step": 1395
   },
   {
-    "loss": 0.0701,
-    "grad_norm": 1.50612473487854,
+    "loss": 0.0525,
+    "grad_norm": 0.9916096329689026,
     "learning_rate": 6.07e-06,
-    "num_tokens": 476978.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.6985,
-    "step": 1397
+    "num_tokens": 952090.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.396,
+    "step": 1396
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.2454281896352768,
+    "loss": 0.0348,
+    "grad_norm": 0.8064159154891968,
     "learning_rate": 6.0600000000000004e-06,
-    "num_tokens": 477069.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.699,
-    "step": 1398
+    "num_tokens": 952693.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.397,
+    "step": 1397
   },
   {
-    "loss": 0.0855,
-    "grad_norm": 1.9738035202026367,
+    "loss": 0.0476,
+    "grad_norm": 0.7438748478889465,
     "learning_rate": 6.0500000000000005e-06,
-    "num_tokens": 477581.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.6995,
-    "step": 1399
+    "num_tokens": 953296.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.3980000000000001,
+    "step": 1398
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.2594867944717407,
+    "loss": 0.0481,
+    "grad_norm": 0.7596222162246704,
     "learning_rate": 6.040000000000001e-06,
-    "num_tokens": 477672.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7,
-    "step": 1400
+    "num_tokens": 954320.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.399,
+    "step": 1399
   },
   {
-    "loss": 0.0579,
-    "grad_norm": 1.1067945957183838,
+    "loss": 0.0398,
+    "grad_norm": 0.770300567150116,
     "learning_rate": 6.030000000000001e-06,
-    "num_tokens": 478184.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.7005,
-    "step": 1401
+    "num_tokens": 955344.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.4,
+    "step": 1400
   },
   {
-    "loss": 0.0566,
-    "grad_norm": 1.0555428266525269,
+    "loss": 0.0481,
+    "grad_norm": 0.8269065022468567,
     "learning_rate": 6.02e-06,
-    "num_tokens": 478696.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.701,
-    "step": 1402
+    "num_tokens": 955947.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.401,
+    "step": 1401
   },
   {
-    "loss": 0.0016,
-    "grad_norm": 0.24508465826511383,
+    "loss": 0.049,
+    "grad_norm": 0.8216456770896912,
     "learning_rate": 6.01e-06,
-    "num_tokens": 478787.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7015,
-    "step": 1403
+    "num_tokens": 956550.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.4020000000000001,
+    "step": 1402
   },
   {
-    "loss": 0.0632,
-    "grad_norm": 1.3900046348571777,
+    "loss": 0.0657,
+    "grad_norm": 1.7622767686843872,
     "learning_rate": 6e-06,
-    "num_tokens": 479299.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.702,
-    "step": 1404
+    "num_tokens": 957153.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.403,
+    "step": 1403
   },
   {
-    "loss": 0.0404,
-    "grad_norm": 0.9500136971473694,
+    "loss": 0.0535,
+    "grad_norm": 0.9183257222175598,
     "learning_rate": 5.99e-06,
-    "num_tokens": 479811.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.7025,
-    "step": 1405
+    "num_tokens": 957756.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.404,
+    "step": 1404
   },
   {
-    "loss": 0.0573,
-    "grad_norm": 1.2340861558914185,
+    "loss": 0.0386,
+    "grad_norm": 0.7511618137359619,
     "learning_rate": 5.98e-06,
-    "num_tokens": 480323.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.703,
-    "step": 1406
+    "num_tokens": 958780.0,
+    "mean_token_accuracy": 0.9843444228172302,
+    "epoch": 1.405,
+    "step": 1405
   },
   {
-    "loss": 0.04,
-    "grad_norm": 1.035536527633667,
+    "loss": 0.0634,
+    "grad_norm": 0.8935681581497192,
     "learning_rate": 5.9700000000000004e-06,
-    "num_tokens": 480835.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.7035,
-    "step": 1407
+    "num_tokens": 959804.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 1.4060000000000001,
+    "step": 1406
   },
   {
-    "loss": 0.064,
-    "grad_norm": 0.9856736660003662,
+    "loss": 0.0589,
+    "grad_norm": 1.1542671918869019,
     "learning_rate": 5.9600000000000005e-06,
-    "num_tokens": 481347.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.704,
-    "step": 1408
+    "num_tokens": 960407.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.407,
+    "step": 1407
   },
   {
-    "loss": 0.0456,
-    "grad_norm": 1.2168488502502441,
+    "loss": 0.0553,
+    "grad_norm": 0.9951035380363464,
     "learning_rate": 5.950000000000001e-06,
-    "num_tokens": 481859.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.7045,
-    "step": 1409
+    "num_tokens": 961010.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.408,
+    "step": 1408
   },
   {
-    "loss": 0.0819,
-    "grad_norm": 1.6233789920806885,
+    "loss": 0.0674,
+    "grad_norm": 1.0712668895721436,
     "learning_rate": 5.94e-06,
-    "num_tokens": 482371.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.705,
-    "step": 1410
+    "num_tokens": 962034.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 1.409,
+    "step": 1409
   },
   {
-    "loss": 0.0644,
-    "grad_norm": 1.539711594581604,
+    "loss": 0.0098,
+    "grad_norm": 1.5661463737487793,
     "learning_rate": 5.93e-06,
-    "num_tokens": 482883.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.7055,
-    "step": 1411
+    "num_tokens": 962216.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.41,
+    "step": 1410
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.5361098647117615,
+    "loss": 0.0478,
+    "grad_norm": 0.8384937644004822,
     "learning_rate": 5.92e-06,
-    "num_tokens": 482974.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.706,
-    "step": 1412
+    "num_tokens": 963240.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.411,
+    "step": 1411
   },
   {
-    "loss": 0.0657,
-    "grad_norm": 1.5077885389328003,
+    "loss": 0.0528,
+    "grad_norm": 1.0182603597640991,
     "learning_rate": 5.91e-06,
-    "num_tokens": 483486.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.7065,
-    "step": 1413
+    "num_tokens": 964264.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 1.412,
+    "step": 1412
   },
   {
-    "loss": 0.0033,
-    "grad_norm": 0.5819950699806213,
+    "loss": 0.0097,
+    "grad_norm": 1.5686061382293701,
     "learning_rate": 5.9e-06,
-    "num_tokens": 483577.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.707,
-    "step": 1414
+    "num_tokens": 964446.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.413,
+    "step": 1413
   },
   {
-    "loss": 0.0844,
-    "grad_norm": 1.6911466121673584,
+    "loss": 0.0346,
+    "grad_norm": 0.8263946771621704,
     "learning_rate": 5.89e-06,
-    "num_tokens": 484089.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.7075,
-    "step": 1415
+    "num_tokens": 965049.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.414,
+    "step": 1414
   },
   {
-    "loss": 0.059,
-    "grad_norm": 0.909106969833374,
+    "loss": 0.0476,
+    "grad_norm": 0.9938256144523621,
     "learning_rate": 5.8800000000000005e-06,
-    "num_tokens": 484601.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.708,
-    "step": 1416
+    "num_tokens": 966073.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.415,
+    "step": 1415
   },
   {
-    "loss": 0.0046,
-    "grad_norm": 0.8148921132087708,
+    "loss": 0.0451,
+    "grad_norm": 0.6707625985145569,
     "learning_rate": 5.8700000000000005e-06,
-    "num_tokens": 484692.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7085,
-    "step": 1417
+    "num_tokens": 967097.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.416,
+    "step": 1416
   },
   {
-    "loss": 0.0603,
-    "grad_norm": 1.50859797000885,
+    "loss": 0.0379,
+    "grad_norm": 0.843828558921814,
     "learning_rate": 5.86e-06,
-    "num_tokens": 485204.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.709,
-    "step": 1418
+    "num_tokens": 967700.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.417,
+    "step": 1417
   },
   {
-    "loss": 0.0041,
-    "grad_norm": 0.7295659780502319,
+    "loss": 0.0428,
+    "grad_norm": 0.6218018531799316,
     "learning_rate": 5.85e-06,
-    "num_tokens": 485295.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7095,
-    "step": 1419
+    "num_tokens": 968724.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 1.418,
+    "step": 1418
   },
   {
-    "loss": 0.0532,
-    "grad_norm": 1.1242952346801758,
+    "loss": 0.0085,
+    "grad_norm": 1.4659920930862427,
     "learning_rate": 5.84e-06,
-    "num_tokens": 485807.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.71,
-    "step": 1420
+    "num_tokens": 968906.0,
+    "mean_token_accuracy": 0.9944444298744202,
+    "epoch": 1.419,
+    "step": 1419
   },
   {
-    "loss": 0.0544,
-    "grad_norm": 0.9595649838447571,
+    "loss": 0.0448,
+    "grad_norm": 0.6442410945892334,
     "learning_rate": 5.83e-06,
-    "num_tokens": 486319.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.7105,
-    "step": 1421
+    "num_tokens": 969930.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.42,
+    "step": 1420
   },
   {
-    "loss": 0.0042,
-    "grad_norm": 0.7197695374488831,
+    "loss": 0.0319,
+    "grad_norm": 0.7817755937576294,
     "learning_rate": 5.82e-06,
-    "num_tokens": 486410.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.711,
-    "step": 1422
+    "num_tokens": 970533.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.421,
+    "step": 1421
   },
   {
-    "loss": 0.0637,
-    "grad_norm": 1.327078938484192,
+    "loss": 0.0509,
+    "grad_norm": 0.7503489851951599,
     "learning_rate": 5.81e-06,
-    "num_tokens": 486922.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.7115,
-    "step": 1423
+    "num_tokens": 971557.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.422,
+    "step": 1422
   },
   {
-    "loss": 0.0515,
-    "grad_norm": 1.3836802244186401,
+    "loss": 0.0551,
+    "grad_norm": 0.8380895256996155,
     "learning_rate": 5.8e-06,
-    "num_tokens": 487434.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.712,
-    "step": 1424
+    "num_tokens": 972581.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.423,
+    "step": 1423
   },
   {
-    "loss": 0.0471,
-    "grad_norm": 2.055051326751709,
+    "loss": 0.0639,
+    "grad_norm": 0.8143321871757507,
     "learning_rate": 5.7900000000000005e-06,
-    "num_tokens": 487946.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.7125,
-    "step": 1425
+    "num_tokens": 973605.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 1.424,
+    "step": 1424
   },
   {
-    "loss": 0.0634,
-    "grad_norm": 1.3304088115692139,
+    "loss": 0.0474,
+    "grad_norm": 0.8417466282844543,
     "learning_rate": 5.78e-06,
-    "num_tokens": 488458.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.713,
-    "step": 1426
+    "num_tokens": 974208.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.425,
+    "step": 1425
   },
   {
-    "loss": 0.0042,
-    "grad_norm": 0.7247684597969055,
+    "loss": 0.0559,
+    "grad_norm": 0.8972397446632385,
     "learning_rate": 5.77e-06,
-    "num_tokens": 488549.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7135,
-    "step": 1427
+    "num_tokens": 974811.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.426,
+    "step": 1426
   },
   {
-    "loss": 0.0042,
-    "grad_norm": 0.7230411767959595,
+    "loss": 0.0377,
+    "grad_norm": 0.7338786125183105,
     "learning_rate": 5.76e-06,
-    "num_tokens": 488640.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.714,
-    "step": 1428
+    "num_tokens": 975835.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 1.427,
+    "step": 1427
   },
   {
-    "loss": 0.0802,
-    "grad_norm": 1.942260980606079,
+    "loss": 0.0554,
+    "grad_norm": 0.9697425961494446,
     "learning_rate": 5.75e-06,
-    "num_tokens": 489152.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.7145,
-    "step": 1429
+    "num_tokens": 976859.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.428,
+    "step": 1428
   },
   {
-    "loss": 0.0408,
-    "grad_norm": 0.9843087792396545,
+    "loss": 0.0593,
+    "grad_norm": 1.1090219020843506,
     "learning_rate": 5.74e-06,
-    "num_tokens": 489664.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.715,
-    "step": 1430
+    "num_tokens": 977883.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.429,
+    "step": 1429
   },
   {
-    "loss": 0.0037,
-    "grad_norm": 0.6149731278419495,
+    "loss": 0.0562,
+    "grad_norm": 0.8675426840782166,
     "learning_rate": 5.73e-06,
-    "num_tokens": 489755.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7155,
-    "step": 1431
+    "num_tokens": 978907.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.43,
+    "step": 1430
   },
   {
-    "loss": 0.0035,
-    "grad_norm": 0.591227114200592,
+    "loss": 0.0511,
+    "grad_norm": 0.9766101837158203,
     "learning_rate": 5.72e-06,
-    "num_tokens": 489846.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.716,
-    "step": 1432
+    "num_tokens": 979510.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.431,
+    "step": 1431
   },
   {
-    "loss": 0.0034,
-    "grad_norm": 0.5716548562049866,
+    "loss": 0.0376,
+    "grad_norm": 0.8910675048828125,
     "learning_rate": 5.71e-06,
-    "num_tokens": 489937.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7165,
-    "step": 1433
+    "num_tokens": 980113.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.432,
+    "step": 1432
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.4706770181655884,
+    "loss": 0.0481,
+    "grad_norm": 0.7779074907302856,
     "learning_rate": 5.7e-06,
-    "num_tokens": 490028.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.717,
-    "step": 1434
+    "num_tokens": 980716.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.433,
+    "step": 1433
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.37091749906539917,
+    "loss": 0.01,
+    "grad_norm": 1.5922235250473022,
     "learning_rate": 5.69e-06,
-    "num_tokens": 490119.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7175,
-    "step": 1435
+    "num_tokens": 980898.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.434,
+    "step": 1434
   },
   {
-    "loss": 0.0592,
-    "grad_norm": 1.1389172077178955,
+    "loss": 0.052,
+    "grad_norm": 1.0975040197372437,
     "learning_rate": 5.68e-06,
-    "num_tokens": 490631.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.718,
-    "step": 1436
+    "num_tokens": 981501.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.435,
+    "step": 1435
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.33143892884254456,
+    "loss": 0.0314,
+    "grad_norm": 0.6844534873962402,
     "learning_rate": 5.67e-06,
-    "num_tokens": 490722.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7185,
-    "step": 1437
+    "num_tokens": 982104.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.436,
+    "step": 1436
   },
   {
-    "loss": 0.068,
-    "grad_norm": 2.0014731884002686,
+    "loss": 0.0105,
+    "grad_norm": 1.6451897621154785,
     "learning_rate": 5.66e-06,
-    "num_tokens": 491234.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.719,
-    "step": 1438
+    "num_tokens": 982286.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.437,
+    "step": 1437
   },
   {
-    "loss": 0.0433,
-    "grad_norm": 1.1497068405151367,
+    "loss": 0.0989,
+    "grad_norm": 1.1932672262191772,
     "learning_rate": 5.65e-06,
-    "num_tokens": 491746.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.7195,
-    "step": 1439
+    "num_tokens": 983310.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 1.438,
+    "step": 1438
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.2540724575519562,
+    "loss": 0.0553,
+    "grad_norm": 0.8934344053268433,
     "learning_rate": 5.64e-06,
-    "num_tokens": 491837.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.72,
-    "step": 1440
+    "num_tokens": 984334.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.439,
+    "step": 1439
   },
   {
-    "loss": 0.0403,
-    "grad_norm": 1.0868761539459229,
+    "loss": 0.0469,
+    "grad_norm": 0.9624803066253662,
     "learning_rate": 5.63e-06,
-    "num_tokens": 492349.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.7205,
-    "step": 1441
+    "num_tokens": 984937.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.44,
+    "step": 1440
   },
   {
-    "loss": 0.0015,
-    "grad_norm": 0.19899524748325348,
+    "loss": 0.0519,
+    "grad_norm": 0.8022207617759705,
     "learning_rate": 5.620000000000001e-06,
-    "num_tokens": 492440.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.721,
-    "step": 1442
+    "num_tokens": 985961.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.441,
+    "step": 1441
   },
   {
-    "loss": 0.0455,
-    "grad_norm": 1.617480754852295,
+    "loss": 0.0474,
+    "grad_norm": 0.9001027941703796,
     "learning_rate": 5.610000000000001e-06,
-    "num_tokens": 492952.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.7215,
-    "step": 1443
+    "num_tokens": 986564.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.442,
+    "step": 1442
   },
   {
-    "loss": 0.0014,
-    "grad_norm": 0.19665531814098358,
+    "loss": 0.0071,
+    "grad_norm": 1.2037103176116943,
     "learning_rate": 5.600000000000001e-06,
-    "num_tokens": 493043.0,
+    "num_tokens": 986746.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.722,
-    "step": 1444
+    "epoch": 1.443,
+    "step": 1443
   },
   {
-    "loss": 0.0648,
-    "grad_norm": 1.622554898262024,
+    "loss": 0.0487,
+    "grad_norm": 0.9536978006362915,
     "learning_rate": 5.590000000000001e-06,
-    "num_tokens": 493555.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.7225,
-    "step": 1445
+    "num_tokens": 987349.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.444,
+    "step": 1444
   },
   {
-    "loss": 0.0014,
-    "grad_norm": 0.18810254335403442,
+    "loss": 0.0469,
+    "grad_norm": 0.7186264395713806,
     "learning_rate": 5.580000000000001e-06,
-    "num_tokens": 493646.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.723,
-    "step": 1446
+    "num_tokens": 988373.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.445,
+    "step": 1445
   },
   {
-    "loss": 0.0701,
-    "grad_norm": 1.4964152574539185,
+    "loss": 0.1263,
+    "grad_norm": 2.343201160430908,
     "learning_rate": 5.570000000000001e-06,
-    "num_tokens": 494158.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.7235,
-    "step": 1447
+    "num_tokens": 988976.0,
+    "mean_token_accuracy": 0.9633943438529968,
+    "epoch": 1.446,
+    "step": 1446
   },
   {
-    "loss": 0.0013,
-    "grad_norm": 0.15776444971561432,
+    "loss": 0.0488,
+    "grad_norm": 0.8710882067680359,
     "learning_rate": 5.560000000000001e-06,
-    "num_tokens": 494249.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.724,
-    "step": 1448
+    "num_tokens": 990000.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.447,
+    "step": 1447
   },
   {
-    "loss": 0.0012,
-    "grad_norm": 0.1539117842912674,
+    "loss": 0.0644,
+    "grad_norm": 1.3034676313400269,
     "learning_rate": 5.550000000000001e-06,
-    "num_tokens": 494340.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7245,
-    "step": 1449
+    "num_tokens": 991024.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.448,
+    "step": 1448
   },
   {
-    "loss": 0.0013,
-    "grad_norm": 0.1636369377374649,
+    "loss": 0.0343,
+    "grad_norm": 0.8432696461677551,
     "learning_rate": 5.540000000000001e-06,
-    "num_tokens": 494431.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.725,
-    "step": 1450
+    "num_tokens": 991627.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.449,
+    "step": 1449
   },
   {
-    "loss": 0.0012,
-    "grad_norm": 0.15004193782806396,
+    "loss": 0.006,
+    "grad_norm": 0.9940508008003235,
     "learning_rate": 5.530000000000001e-06,
-    "num_tokens": 494522.0,
+    "num_tokens": 991809.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.7255,
-    "step": 1451
+    "epoch": 1.45,
+    "step": 1450
   },
   {
-    "loss": 0.0012,
-    "grad_norm": 0.15097948908805847,
+    "loss": 0.0501,
+    "grad_norm": 0.7937811613082886,
     "learning_rate": 5.5200000000000005e-06,
-    "num_tokens": 494613.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.726,
-    "step": 1452
+    "num_tokens": 992833.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.451,
+    "step": 1451
   },
   {
-    "loss": 0.0012,
-    "grad_norm": 0.14485493302345276,
+    "loss": 0.057,
+    "grad_norm": 1.3005925416946411,
     "learning_rate": 5.510000000000001e-06,
-    "num_tokens": 494704.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7265,
-    "step": 1453
+    "num_tokens": 993436.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.452,
+    "step": 1452
   },
   {
-    "loss": 0.047,
-    "grad_norm": 1.3281570672988892,
+    "loss": 0.0056,
+    "grad_norm": 0.953944742679596,
     "learning_rate": 5.500000000000001e-06,
-    "num_tokens": 495216.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.727,
-    "step": 1454
+    "num_tokens": 993618.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.453,
+    "step": 1453
   },
   {
-    "loss": 0.0519,
-    "grad_norm": 2.394688844680786,
+    "loss": 0.0339,
+    "grad_norm": 0.7726427912712097,
     "learning_rate": 5.490000000000001e-06,
-    "num_tokens": 495728.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.7275,
-    "step": 1455
+    "num_tokens": 994221.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.454,
+    "step": 1454
   },
   {
-    "loss": 0.0012,
-    "grad_norm": 0.1376945525407791,
+    "loss": 0.0435,
+    "grad_norm": 0.8961969017982483,
     "learning_rate": 5.480000000000001e-06,
-    "num_tokens": 495819.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.728,
-    "step": 1456
+    "num_tokens": 995245.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.455,
+    "step": 1455
   },
   {
-    "loss": 0.0011,
-    "grad_norm": 0.13309122622013092,
+    "loss": 0.0577,
+    "grad_norm": 0.8478931188583374,
     "learning_rate": 5.470000000000001e-06,
-    "num_tokens": 495910.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7285,
-    "step": 1457
+    "num_tokens": 996269.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.456,
+    "step": 1456
   },
   {
-    "loss": 0.0439,
-    "grad_norm": 1.0667738914489746,
+    "loss": 0.0329,
+    "grad_norm": 0.8090602159500122,
     "learning_rate": 5.460000000000001e-06,
-    "num_tokens": 496422.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.729,
-    "step": 1458
+    "num_tokens": 996872.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.457,
+    "step": 1457
   },
   {
-    "loss": 0.0012,
-    "grad_norm": 0.14376237988471985,
+    "loss": 0.0608,
+    "grad_norm": 0.9001142382621765,
     "learning_rate": 5.450000000000001e-06,
-    "num_tokens": 496513.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7295,
-    "step": 1459
+    "num_tokens": 997896.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.458,
+    "step": 1458
   },
   {
-    "loss": 0.0011,
-    "grad_norm": 0.13507920503616333,
+    "loss": 0.0538,
+    "grad_norm": 0.772366464138031,
     "learning_rate": 5.4400000000000004e-06,
-    "num_tokens": 496604.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.73,
-    "step": 1460
+    "num_tokens": 998920.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.459,
+    "step": 1459
   },
   {
-    "loss": 0.0749,
-    "grad_norm": 1.5052191019058228,
+    "loss": 0.0517,
+    "grad_norm": 1.0373460054397583,
     "learning_rate": 5.4300000000000005e-06,
-    "num_tokens": 497116.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.7305,
-    "step": 1461
+    "num_tokens": 999523.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.46,
+    "step": 1460
   },
   {
-    "loss": 0.0012,
-    "grad_norm": 0.14203152060508728,
+    "loss": 0.0378,
+    "grad_norm": 0.962916374206543,
     "learning_rate": 5.420000000000001e-06,
-    "num_tokens": 497207.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.731,
-    "step": 1462
+    "num_tokens": 1000126.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.461,
+    "step": 1461
   },
   {
-    "loss": 0.0445,
-    "grad_norm": 1.228667974472046,
+    "loss": 0.0515,
+    "grad_norm": 0.7162904739379883,
     "learning_rate": 5.410000000000001e-06,
-    "num_tokens": 497719.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.7315,
-    "step": 1463
+    "num_tokens": 1001150.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.462,
+    "step": 1462
   },
   {
-    "loss": 0.0656,
-    "grad_norm": 1.407843828201294,
+    "loss": 0.0595,
+    "grad_norm": 0.8994327187538147,
     "learning_rate": 5.400000000000001e-06,
-    "num_tokens": 498231.0,
+    "num_tokens": 1002174.0,
     "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.732,
-    "step": 1464
+    "epoch": 1.463,
+    "step": 1463
   },
   {
-    "loss": 0.0647,
-    "grad_norm": 1.6894930601119995,
+    "loss": 0.0505,
+    "grad_norm": 1.0326029062271118,
     "learning_rate": 5.390000000000001e-06,
-    "num_tokens": 498743.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.7325,
-    "step": 1465
+    "num_tokens": 1002777.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.464,
+    "step": 1464
   },
   {
-    "loss": 0.0012,
-    "grad_norm": 0.14642253518104553,
+    "loss": 0.0574,
+    "grad_norm": 0.9661214351654053,
     "learning_rate": 5.380000000000001e-06,
-    "num_tokens": 498834.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.733,
-    "step": 1466
+    "num_tokens": 1003801.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.465,
+    "step": 1465
   },
   {
-    "loss": 0.0452,
-    "grad_norm": 1.07169508934021,
+    "loss": 0.049,
+    "grad_norm": 0.9666001200675964,
     "learning_rate": 5.370000000000001e-06,
-    "num_tokens": 499346.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.7335,
-    "step": 1467
+    "num_tokens": 1004404.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.466,
+    "step": 1466
   },
   {
-    "loss": 0.0013,
-    "grad_norm": 0.1761048138141632,
+    "loss": 0.0085,
+    "grad_norm": 1.3241703510284424,
     "learning_rate": 5.36e-06,
-    "num_tokens": 499437.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.734,
-    "step": 1468
+    "num_tokens": 1004586.0,
+    "mean_token_accuracy": 0.9944444298744202,
+    "epoch": 1.467,
+    "step": 1467
   },
   {
-    "loss": 0.0849,
-    "grad_norm": 2.0752289295196533,
+    "loss": 0.046,
+    "grad_norm": 0.6046337485313416,
     "learning_rate": 5.3500000000000004e-06,
-    "num_tokens": 499949.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.7345,
-    "step": 1469
+    "num_tokens": 1005610.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.468,
+    "step": 1468
   },
   {
-    "loss": 0.0425,
-    "grad_norm": 1.113696575164795,
+    "loss": 0.0593,
+    "grad_norm": 0.6918057799339294,
     "learning_rate": 5.3400000000000005e-06,
-    "num_tokens": 500461.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.735,
-    "step": 1470
+    "num_tokens": 1006634.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.4689999999999999,
+    "step": 1469
   },
   {
-    "loss": 0.0846,
-    "grad_norm": 1.7338367700576782,
+    "loss": 0.0451,
+    "grad_norm": 0.6940487027168274,
     "learning_rate": 5.330000000000001e-06,
-    "num_tokens": 500973.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.7355,
-    "step": 1471
+    "num_tokens": 1007658.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.47,
+    "step": 1470
   },
   {
-    "loss": 0.0014,
-    "grad_norm": 0.1934671550989151,
+    "loss": 0.0478,
+    "grad_norm": 0.9059286117553711,
     "learning_rate": 5.320000000000001e-06,
-    "num_tokens": 501064.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.736,
-    "step": 1472
+    "num_tokens": 1008261.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.471,
+    "step": 1471
   },
   {
-    "loss": 0.0443,
-    "grad_norm": 1.1740210056304932,
+    "loss": 0.0618,
+    "grad_norm": 1.034736156463623,
     "learning_rate": 5.310000000000001e-06,
-    "num_tokens": 501576.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.7365,
-    "step": 1473
+    "num_tokens": 1009285.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.472,
+    "step": 1472
   },
   {
-    "loss": 0.0016,
-    "grad_norm": 0.221791610121727,
+    "loss": 0.0454,
+    "grad_norm": 0.8436343669891357,
     "learning_rate": 5.300000000000001e-06,
-    "num_tokens": 501667.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.737,
-    "step": 1474
+    "num_tokens": 1009888.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.4729999999999999,
+    "step": 1473
   },
   {
-    "loss": 0.0419,
-    "grad_norm": 1.0604463815689087,
+    "loss": 0.0484,
+    "grad_norm": 0.7013604044914246,
     "learning_rate": 5.290000000000001e-06,
-    "num_tokens": 502179.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.7375,
-    "step": 1475
+    "num_tokens": 1010491.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.474,
+    "step": 1474
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.2774617373943329,
+    "loss": 0.0097,
+    "grad_norm": 1.5493104457855225,
     "learning_rate": 5.28e-06,
-    "num_tokens": 502270.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.738,
-    "step": 1476
+    "num_tokens": 1010673.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.475,
+    "step": 1475
   },
   {
-    "loss": 0.0715,
-    "grad_norm": 1.4584964513778687,
+    "loss": 0.0474,
+    "grad_norm": 0.7735861539840698,
     "learning_rate": 5.27e-06,
-    "num_tokens": 502782.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.7385,
-    "step": 1477
+    "num_tokens": 1011697.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.476,
+    "step": 1476
   },
   {
-    "loss": 0.0424,
-    "grad_norm": 1.1874643564224243,
+    "loss": 0.0519,
+    "grad_norm": 0.8996990323066711,
     "learning_rate": 5.2600000000000005e-06,
-    "num_tokens": 503294.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.739,
-    "step": 1478
+    "num_tokens": 1012300.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.4769999999999999,
+    "step": 1477
   },
   {
-    "loss": 0.0681,
-    "grad_norm": 1.1877933740615845,
+    "loss": 0.0471,
+    "grad_norm": 0.9033766984939575,
     "learning_rate": 5.2500000000000006e-06,
-    "num_tokens": 503806.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.7395,
-    "step": 1479
+    "num_tokens": 1013324.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.478,
+    "step": 1478
   },
   {
-    "loss": 0.0574,
-    "grad_norm": 1.2860503196716309,
+    "loss": 0.0098,
+    "grad_norm": 1.5441380739212036,
     "learning_rate": 5.240000000000001e-06,
-    "num_tokens": 504318.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.74,
-    "step": 1480
+    "num_tokens": 1013506.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.479,
+    "step": 1479
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.38671889901161194,
+    "loss": 0.0321,
+    "grad_norm": 0.7326072454452515,
     "learning_rate": 5.230000000000001e-06,
-    "num_tokens": 504409.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7405,
-    "step": 1481
+    "num_tokens": 1014109.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.48,
+    "step": 1480
   },
   {
-    "loss": 0.0778,
-    "grad_norm": 1.683851718902588,
+    "loss": 0.05,
+    "grad_norm": 0.7916252017021179,
     "learning_rate": 5.220000000000001e-06,
-    "num_tokens": 504921.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.741,
-    "step": 1482
+    "num_tokens": 1015133.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.4809999999999999,
+    "step": 1481
   },
   {
-    "loss": 0.0624,
-    "grad_norm": 1.148560643196106,
+    "loss": 0.0469,
+    "grad_norm": 0.6595597863197327,
     "learning_rate": 5.210000000000001e-06,
-    "num_tokens": 505433.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.7415,
-    "step": 1483
+    "num_tokens": 1016157.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 1.482,
+    "step": 1482
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.422258198261261,
+    "loss": 0.0087,
+    "grad_norm": 1.4249048233032227,
     "learning_rate": 5.2e-06,
-    "num_tokens": 505524.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.742,
-    "step": 1484
+    "num_tokens": 1016339.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.483,
+    "step": 1483
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.48346948623657227,
+    "loss": 0.0508,
+    "grad_norm": 0.8671485781669617,
     "learning_rate": 5.19e-06,
-    "num_tokens": 505615.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7425,
-    "step": 1485
+    "num_tokens": 1017363.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.484,
+    "step": 1484
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.4990505874156952,
+    "loss": 0.0079,
+    "grad_norm": 1.3106517791748047,
     "learning_rate": 5.18e-06,
-    "num_tokens": 505706.0,
+    "num_tokens": 1017545.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.743,
-    "step": 1486
+    "epoch": 1.4849999999999999,
+    "step": 1485
   },
   {
-    "loss": 0.0444,
-    "grad_norm": 1.1750332117080688,
+    "loss": 0.0071,
+    "grad_norm": 1.222119927406311,
     "learning_rate": 5.1700000000000005e-06,
-    "num_tokens": 506218.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.7435,
-    "step": 1487
+    "num_tokens": 1017727.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.486,
+    "step": 1486
   },
   {
-    "loss": 0.0631,
-    "grad_norm": 1.0927088260650635,
+    "loss": 0.0672,
+    "grad_norm": 1.2891416549682617,
     "learning_rate": 5.1600000000000006e-06,
-    "num_tokens": 506730.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.744,
-    "step": 1488
+    "num_tokens": 1018751.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 1.487,
+    "step": 1487
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.491895854473114,
+    "loss": 0.0366,
+    "grad_norm": 0.7987739443778992,
     "learning_rate": 5.150000000000001e-06,
-    "num_tokens": 506821.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7445,
-    "step": 1489
+    "num_tokens": 1019775.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 1.488,
+    "step": 1488
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.48604080080986023,
+    "loss": 0.0052,
+    "grad_norm": 0.914754331111908,
     "learning_rate": 5.140000000000001e-06,
-    "num_tokens": 506912.0,
+    "num_tokens": 1019957.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.745,
-    "step": 1490
+    "epoch": 1.4889999999999999,
+    "step": 1489
   },
   {
-    "loss": 0.0646,
-    "grad_norm": 1.8152271509170532,
+    "loss": 0.0616,
+    "grad_norm": 1.0975897312164307,
     "learning_rate": 5.130000000000001e-06,
-    "num_tokens": 507424.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.7455,
-    "step": 1491
+    "num_tokens": 1020981.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.49,
+    "step": 1490
   },
   {
-    "loss": 0.0905,
-    "grad_norm": 2.1916065216064453,
+    "loss": 0.004,
+    "grad_norm": 0.7056474089622498,
     "learning_rate": 5.12e-06,
-    "num_tokens": 507936.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.746,
-    "step": 1492
+    "num_tokens": 1021163.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.491,
+    "step": 1491
   },
   {
-    "loss": 0.0441,
-    "grad_norm": 0.9943680167198181,
+    "loss": 0.0436,
+    "grad_norm": 1.1120914220809937,
     "learning_rate": 5.11e-06,
-    "num_tokens": 508448.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.7465,
-    "step": 1493
+    "num_tokens": 1021766.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.492,
+    "step": 1492
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.4724738299846649,
+    "loss": 0.0336,
+    "grad_norm": 0.6931697726249695,
     "learning_rate": 5.1e-06,
-    "num_tokens": 508539.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.747,
-    "step": 1494
+    "num_tokens": 1022369.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.4929999999999999,
+    "step": 1493
   },
   {
-    "loss": 0.0455,
-    "grad_norm": 1.327681303024292,
+    "loss": 0.0378,
+    "grad_norm": 0.9726889729499817,
     "learning_rate": 5.09e-06,
-    "num_tokens": 509051.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.7475,
-    "step": 1495
+    "num_tokens": 1022972.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.494,
+    "step": 1494
   },
   {
-    "loss": 0.0401,
-    "grad_norm": 1.00179922580719,
+    "loss": 0.0366,
+    "grad_norm": 0.8213800191879272,
     "learning_rate": 5.0800000000000005e-06,
-    "num_tokens": 509563.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.748,
-    "step": 1496
+    "num_tokens": 1023575.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.495,
+    "step": 1495
   },
   {
-    "loss": 0.2741,
-    "grad_norm": 5.871794700622559,
+    "loss": 0.0031,
+    "grad_norm": 0.5312236547470093,
     "learning_rate": 5.070000000000001e-06,
-    "num_tokens": 510075.0,
-    "mean_token_accuracy": 0.9373776912689209,
-    "epoch": 0.7485,
-    "step": 1497
+    "num_tokens": 1023757.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.496,
+    "step": 1496
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.48077592253685,
+    "loss": 0.0549,
+    "grad_norm": 1.0347145795822144,
     "learning_rate": 5.060000000000001e-06,
-    "num_tokens": 510166.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.749,
-    "step": 1498
+    "num_tokens": 1024781.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.4969999999999999,
+    "step": 1497
   },
   {
-    "loss": 0.0706,
-    "grad_norm": 1.4320826530456543,
+    "loss": 0.0383,
+    "grad_norm": 0.7086313962936401,
     "learning_rate": 5.050000000000001e-06,
-    "num_tokens": 510678.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.7495,
-    "step": 1499
+    "num_tokens": 1025805.0,
+    "mean_token_accuracy": 0.9823874831199646,
+    "epoch": 1.498,
+    "step": 1498
   },
   {
-    "loss": 0.0435,
-    "grad_norm": 1.2258262634277344,
+    "loss": 0.0028,
+    "grad_norm": 0.4698486626148224,
     "learning_rate": 5.04e-06,
-    "num_tokens": 511190.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.75,
-    "step": 1500
+    "num_tokens": 1025987.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.499,
+    "step": 1499
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.5447593331336975,
+    "loss": 0.0336,
+    "grad_norm": 1.0022740364074707,
     "learning_rate": 5.03e-06,
-    "num_tokens": 511281.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7505,
-    "step": 1501
+    "num_tokens": 1026590.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.5,
+    "step": 1500
   },
   {
-    "loss": 0.0408,
-    "grad_norm": 1.0005323886871338,
+    "loss": 0.0485,
+    "grad_norm": 1.0019136667251587,
     "learning_rate": 5.02e-06,
-    "num_tokens": 511793.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.751,
-    "step": 1502
+    "num_tokens": 1027193.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.501,
+    "step": 1501
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.52440345287323,
+    "loss": 0.0646,
+    "grad_norm": 1.0677893161773682,
     "learning_rate": 5.01e-06,
-    "num_tokens": 511884.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7515,
-    "step": 1503
+    "num_tokens": 1028217.0,
+    "mean_token_accuracy": 0.9667319059371948,
+    "epoch": 1.502,
+    "step": 1502
   },
   {
-    "loss": 0.0931,
-    "grad_norm": 2.2890543937683105,
+    "loss": 0.0518,
+    "grad_norm": 1.0055443048477173,
     "learning_rate": 5e-06,
-    "num_tokens": 512396.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.752,
-    "step": 1504
+    "num_tokens": 1028820.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.5030000000000001,
+    "step": 1503
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.47974297404289246,
+    "loss": 0.0579,
+    "grad_norm": 0.7834446430206299,
     "learning_rate": 4.9900000000000005e-06,
-    "num_tokens": 512487.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7525,
-    "step": 1505
+    "num_tokens": 1029844.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.504,
+    "step": 1504
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.4712013900279999,
+    "loss": 0.0502,
+    "grad_norm": 0.8990997076034546,
     "learning_rate": 4.980000000000001e-06,
-    "num_tokens": 512578.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.753,
-    "step": 1506
+    "num_tokens": 1030447.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.505,
+    "step": 1505
   },
   {
-    "loss": 0.0734,
-    "grad_norm": 1.7330412864685059,
+    "loss": 0.0489,
+    "grad_norm": 0.812285840511322,
     "learning_rate": 4.970000000000001e-06,
-    "num_tokens": 513090.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.7535,
-    "step": 1507
+    "num_tokens": 1031050.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.506,
+    "step": 1506
   },
   {
-    "loss": 0.0412,
-    "grad_norm": 1.2318421602249146,
+    "loss": 0.0035,
+    "grad_norm": 0.6116827726364136,
     "learning_rate": 4.960000000000001e-06,
-    "num_tokens": 513602.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.754,
-    "step": 1508
+    "num_tokens": 1031232.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.5070000000000001,
+    "step": 1507
   },
   {
-    "loss": 0.0577,
-    "grad_norm": 1.1624799966812134,
+    "loss": 0.0039,
+    "grad_norm": 0.6817529201507568,
     "learning_rate": 4.95e-06,
-    "num_tokens": 514114.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.7545,
-    "step": 1509
+    "num_tokens": 1031414.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.508,
+    "step": 1508
   },
   {
-    "loss": 0.0667,
-    "grad_norm": 1.3667885065078735,
+    "loss": 0.0545,
+    "grad_norm": 0.8566991090774536,
     "learning_rate": 4.94e-06,
-    "num_tokens": 514626.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.755,
-    "step": 1510
+    "num_tokens": 1032438.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.509,
+    "step": 1509
   },
   {
-    "loss": 0.0472,
-    "grad_norm": 1.0038102865219116,
+    "loss": 0.0421,
+    "grad_norm": 0.7650224566459656,
     "learning_rate": 4.93e-06,
-    "num_tokens": 515138.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.7555,
-    "step": 1511
+    "num_tokens": 1033462.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 1.51,
+    "step": 1510
   },
   {
-    "loss": 0.0662,
-    "grad_norm": 1.370149850845337,
+    "loss": 0.0502,
+    "grad_norm": 1.4276961088180542,
     "learning_rate": 4.92e-06,
-    "num_tokens": 515650.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.756,
-    "step": 1512
+    "num_tokens": 1034065.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.5110000000000001,
+    "step": 1511
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.4965730309486389,
+    "loss": 0.0595,
+    "grad_norm": 0.9101549983024597,
     "learning_rate": 4.9100000000000004e-06,
-    "num_tokens": 515741.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7565,
-    "step": 1513
+    "num_tokens": 1035089.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.512,
+    "step": 1512
   },
   {
-    "loss": 0.0397,
-    "grad_norm": 0.9282152056694031,
+    "loss": 0.0411,
+    "grad_norm": 0.8246486783027649,
     "learning_rate": 4.9000000000000005e-06,
-    "num_tokens": 516253.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.757,
-    "step": 1514
+    "num_tokens": 1036113.0,
+    "mean_token_accuracy": 0.9833659529685974,
+    "epoch": 1.513,
+    "step": 1513
   },
   {
-    "loss": 0.0576,
-    "grad_norm": 1.0276484489440918,
+    "loss": 0.0567,
+    "grad_norm": 0.6719825863838196,
     "learning_rate": 4.890000000000001e-06,
-    "num_tokens": 516765.0,
+    "num_tokens": 1037137.0,
     "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.7575,
-    "step": 1515
+    "epoch": 1.514,
+    "step": 1514
   },
   {
-    "loss": 0.0656,
-    "grad_norm": 1.319326400756836,
+    "loss": 0.0651,
+    "grad_norm": 0.9816451072692871,
     "learning_rate": 4.880000000000001e-06,
-    "num_tokens": 517277.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.758,
-    "step": 1516
+    "num_tokens": 1038161.0,
+    "mean_token_accuracy": 0.965753436088562,
+    "epoch": 1.5150000000000001,
+    "step": 1515
   },
   {
-    "loss": 0.0636,
-    "grad_norm": 1.2873133420944214,
+    "loss": 0.043,
+    "grad_norm": 0.5606999397277832,
     "learning_rate": 4.87e-06,
-    "num_tokens": 517789.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.7585,
-    "step": 1517
+    "num_tokens": 1039185.0,
+    "mean_token_accuracy": 0.9823874831199646,
+    "epoch": 1.516,
+    "step": 1516
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.5650099515914917,
+    "loss": 0.0587,
+    "grad_norm": 0.8615964651107788,
     "learning_rate": 4.86e-06,
-    "num_tokens": 517880.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.759,
-    "step": 1518
+    "num_tokens": 1040209.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.517,
+    "step": 1517
   },
   {
-    "loss": 0.0404,
-    "grad_norm": 1.389515995979309,
+    "loss": 0.0066,
+    "grad_norm": 1.1458766460418701,
     "learning_rate": 4.85e-06,
-    "num_tokens": 518392.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.7595,
-    "step": 1519
+    "num_tokens": 1040391.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.518,
+    "step": 1518
   },
   {
-    "loss": 0.0036,
-    "grad_norm": 0.6158953309059143,
+    "loss": 0.0317,
+    "grad_norm": 0.603073239326477,
     "learning_rate": 4.84e-06,
-    "num_tokens": 518483.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.76,
-    "step": 1520
+    "num_tokens": 1040994.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.5190000000000001,
+    "step": 1519
   },
   {
-    "loss": 0.0823,
-    "grad_norm": 2.242391347885132,
+    "loss": 0.0478,
+    "grad_norm": 0.7289522886276245,
     "learning_rate": 4.83e-06,
-    "num_tokens": 518995.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.7605,
-    "step": 1521
+    "num_tokens": 1042018.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.52,
+    "step": 1520
   },
   {
-    "loss": 0.0653,
-    "grad_norm": 1.5677355527877808,
+    "loss": 0.0575,
+    "grad_norm": 1.0849231481552124,
     "learning_rate": 4.8200000000000004e-06,
-    "num_tokens": 519507.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.761,
-    "step": 1522
+    "num_tokens": 1042621.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.521,
+    "step": 1521
   },
   {
-    "loss": 0.0781,
-    "grad_norm": 2.0974771976470947,
+    "loss": 0.0455,
+    "grad_norm": 0.7681816220283508,
     "learning_rate": 4.8100000000000005e-06,
-    "num_tokens": 520019.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.7615,
-    "step": 1523
+    "num_tokens": 1043224.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.522,
+    "step": 1522
   },
   {
-    "loss": 0.0611,
-    "grad_norm": 1.4084426164627075,
+    "loss": 0.0334,
+    "grad_norm": 0.7258145213127136,
     "learning_rate": 4.800000000000001e-06,
-    "num_tokens": 520531.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.762,
-    "step": 1524
+    "num_tokens": 1043827.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.5230000000000001,
+    "step": 1523
   },
   {
-    "loss": 0.0044,
-    "grad_norm": 0.7955360412597656,
+    "loss": 0.0558,
+    "grad_norm": 0.8517635464668274,
     "learning_rate": 4.79e-06,
-    "num_tokens": 520622.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7625,
-    "step": 1525
+    "num_tokens": 1044851.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 1.524,
+    "step": 1524
   },
   {
-    "loss": 0.0352,
-    "grad_norm": 0.9566419124603271,
+    "loss": 0.0449,
+    "grad_norm": 0.9045063257217407,
     "learning_rate": 4.78e-06,
-    "num_tokens": 521134.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.763,
-    "step": 1526
+    "num_tokens": 1045454.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.525,
+    "step": 1525
   },
   {
-    "loss": 0.0564,
-    "grad_norm": 0.9539786577224731,
+    "loss": 0.0333,
+    "grad_norm": 0.8299849033355713,
     "learning_rate": 4.77e-06,
-    "num_tokens": 521646.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.7635,
-    "step": 1527
+    "num_tokens": 1046057.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.526,
+    "step": 1526
   },
   {
-    "loss": 0.0459,
-    "grad_norm": 1.0773917436599731,
+    "loss": 0.0539,
+    "grad_norm": 0.7558150291442871,
     "learning_rate": 4.76e-06,
-    "num_tokens": 522158.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.764,
-    "step": 1528
+    "num_tokens": 1047081.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.5270000000000001,
+    "step": 1527
   },
   {
-    "loss": 0.075,
-    "grad_norm": 2.423198938369751,
+    "loss": 0.0567,
+    "grad_norm": 1.201917052268982,
     "learning_rate": 4.75e-06,
-    "num_tokens": 522670.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.7645,
-    "step": 1529
+    "num_tokens": 1047684.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.528,
+    "step": 1528
   },
   {
-    "loss": 0.0044,
-    "grad_norm": 0.7832935452461243,
+    "loss": 0.0539,
+    "grad_norm": 1.0532753467559814,
     "learning_rate": 4.74e-06,
-    "num_tokens": 522761.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.765,
-    "step": 1530
+    "num_tokens": 1048287.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.529,
+    "step": 1529
   },
   {
-    "loss": 0.0661,
-    "grad_norm": 1.3831069469451904,
+    "loss": 0.0339,
+    "grad_norm": 0.8715020418167114,
     "learning_rate": 4.7300000000000005e-06,
-    "num_tokens": 523273.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.7655,
-    "step": 1531
+    "num_tokens": 1048890.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.53,
+    "step": 1530
   },
   {
-    "loss": 0.0043,
-    "grad_norm": 0.7653414011001587,
+    "loss": 0.0552,
+    "grad_norm": 1.2127397060394287,
     "learning_rate": 4.7200000000000005e-06,
-    "num_tokens": 523364.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.766,
-    "step": 1532
+    "num_tokens": 1049493.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.5310000000000001,
+    "step": 1531
   },
   {
-    "loss": 0.0039,
-    "grad_norm": 0.7014725208282471,
+    "loss": 0.0466,
+    "grad_norm": 0.6669203042984009,
     "learning_rate": 4.71e-06,
-    "num_tokens": 523455.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7665,
-    "step": 1533
+    "num_tokens": 1050517.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 1.532,
+    "step": 1532
   },
   {
-    "loss": 0.0042,
-    "grad_norm": 0.7603307962417603,
+    "loss": 0.0523,
+    "grad_norm": 0.8616625070571899,
     "learning_rate": 4.7e-06,
-    "num_tokens": 523546.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.767,
-    "step": 1534
+    "num_tokens": 1051541.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.533,
+    "step": 1533
   },
   {
-    "loss": 0.0622,
-    "grad_norm": 1.3033061027526855,
+    "loss": 0.0635,
+    "grad_norm": 1.3307801485061646,
     "learning_rate": 4.69e-06,
-    "num_tokens": 524058.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.7675,
-    "step": 1535
+    "num_tokens": 1052144.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.534,
+    "step": 1534
   },
   {
-    "loss": 0.0774,
-    "grad_norm": 2.0244553089141846,
+    "loss": 0.0447,
+    "grad_norm": 0.8427996039390564,
     "learning_rate": 4.680000000000001e-06,
-    "num_tokens": 524570.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.768,
-    "step": 1536
+    "num_tokens": 1052747.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.5350000000000001,
+    "step": 1535
   },
   {
-    "loss": 0.0035,
-    "grad_norm": 0.6342400908470154,
+    "loss": 0.057,
+    "grad_norm": 1.3174206018447876,
     "learning_rate": 4.670000000000001e-06,
-    "num_tokens": 524661.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7685,
-    "step": 1537
+    "num_tokens": 1053350.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.536,
+    "step": 1536
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.5407992601394653,
+    "loss": 0.0523,
+    "grad_norm": 1.1958731412887573,
     "learning_rate": 4.66e-06,
-    "num_tokens": 524752.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.769,
-    "step": 1538
+    "num_tokens": 1053953.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.537,
+    "step": 1537
   },
   {
-    "loss": 0.0611,
-    "grad_norm": 1.2235374450683594,
+    "loss": 0.0562,
+    "grad_norm": 1.1242337226867676,
     "learning_rate": 4.65e-06,
-    "num_tokens": 525264.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.7695,
-    "step": 1539
+    "num_tokens": 1054977.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.538,
+    "step": 1538
   },
   {
-    "loss": 0.0623,
-    "grad_norm": 1.3751453161239624,
+    "loss": 0.0342,
+    "grad_norm": 0.7817521691322327,
     "learning_rate": 4.6400000000000005e-06,
-    "num_tokens": 525776.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.77,
-    "step": 1540
+    "num_tokens": 1055580.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.5390000000000001,
+    "step": 1539
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.4813397526741028,
+    "loss": 0.0516,
+    "grad_norm": 0.8116522431373596,
     "learning_rate": 4.6300000000000006e-06,
-    "num_tokens": 525867.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7705,
-    "step": 1541
+    "num_tokens": 1056183.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.54,
+    "step": 1540
   },
   {
-    "loss": 0.0664,
-    "grad_norm": 1.2894669771194458,
+    "loss": 0.0551,
+    "grad_norm": 0.7639745473861694,
     "learning_rate": 4.620000000000001e-06,
-    "num_tokens": 526379.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.771,
-    "step": 1542
+    "num_tokens": 1057207.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.541,
+    "step": 1541
   },
   {
-    "loss": 0.056,
-    "grad_norm": 1.4559017419815063,
-    "learning_rate": 4.610000000000001e-06,
-    "num_tokens": 526891.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.7715,
-    "step": 1543
+    "loss": 0.0536,
+    "grad_norm": 0.8198519945144653,
+    "learning_rate": 4.610000000000001e-06,
+    "num_tokens": 1058231.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.542,
+    "step": 1542
   },
   {
-    "loss": 0.0775,
-    "grad_norm": 2.593362808227539,
+    "loss": 0.0344,
+    "grad_norm": 0.7266889214515686,
     "learning_rate": 4.600000000000001e-06,
-    "num_tokens": 527403.0,
-    "mean_token_accuracy": 0.9569471478462219,
-    "epoch": 0.772,
-    "step": 1544
+    "num_tokens": 1058834.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.5430000000000001,
+    "step": 1543
   },
   {
-    "loss": 0.3138,
-    "grad_norm": 5.148370742797852,
+    "loss": 0.0555,
+    "grad_norm": 1.113586187362671,
     "learning_rate": 4.590000000000001e-06,
-    "num_tokens": 527915.0,
-    "mean_token_accuracy": 0.9334638118743896,
-    "epoch": 0.7725,
-    "step": 1545
+    "num_tokens": 1059437.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.544,
+    "step": 1544
   },
   {
-    "loss": 0.0756,
-    "grad_norm": 2.2736735343933105,
+    "loss": 0.012,
+    "grad_norm": 1.719358205795288,
     "learning_rate": 4.58e-06,
-    "num_tokens": 528427.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.773,
-    "step": 1546
+    "num_tokens": 1059619.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.545,
+    "step": 1545
   },
   {
-    "loss": 0.065,
-    "grad_norm": 3.2683534622192383,
+    "loss": 0.0321,
+    "grad_norm": 0.7295169234275818,
     "learning_rate": 4.57e-06,
-    "num_tokens": 528939.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.7735,
-    "step": 1547
+    "num_tokens": 1060222.0,
+    "mean_token_accuracy": 0.9883527159690857,
+    "epoch": 1.546,
+    "step": 1546
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.44800934195518494,
+    "loss": 0.0516,
+    "grad_norm": 0.7697953581809998,
     "learning_rate": 4.56e-06,
-    "num_tokens": 529030.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.774,
-    "step": 1548
+    "num_tokens": 1061246.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 1.5470000000000002,
+    "step": 1547
   },
   {
-    "loss": 0.2697,
-    "grad_norm": 5.550428867340088,
+    "loss": 0.0106,
+    "grad_norm": 1.5413947105407715,
     "learning_rate": 4.5500000000000005e-06,
-    "num_tokens": 529542.0,
-    "mean_token_accuracy": 0.9256359934806824,
-    "epoch": 0.7745,
-    "step": 1549
+    "num_tokens": 1061428.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.548,
+    "step": 1548
   },
   {
-    "loss": 0.0566,
-    "grad_norm": 1.0541280508041382,
+    "loss": 0.0588,
+    "grad_norm": 0.8341297507286072,
     "learning_rate": 4.540000000000001e-06,
-    "num_tokens": 530054.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.775,
-    "step": 1550
+    "num_tokens": 1062452.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.549,
+    "step": 1549
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3617427945137024,
+    "loss": 0.0101,
+    "grad_norm": 1.516141653060913,
     "learning_rate": 4.530000000000001e-06,
-    "num_tokens": 530145.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7755,
-    "step": 1551
+    "num_tokens": 1062634.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.55,
+    "step": 1550
   },
   {
-    "loss": 0.0473,
-    "grad_norm": 1.3375787734985352,
+    "loss": 0.0366,
+    "grad_norm": 0.8384003639221191,
     "learning_rate": 4.520000000000001e-06,
-    "num_tokens": 530657.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.776,
-    "step": 1552
+    "num_tokens": 1063237.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.5510000000000002,
+    "step": 1551
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.33384522795677185,
+    "loss": 0.0506,
+    "grad_norm": 0.8416287899017334,
     "learning_rate": 4.510000000000001e-06,
-    "num_tokens": 530748.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7765,
-    "step": 1553
+    "num_tokens": 1064261.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.552,
+    "step": 1552
   },
   {
-    "loss": 0.0379,
-    "grad_norm": 1.0544806718826294,
+    "loss": 0.0538,
+    "grad_norm": 1.3951233625411987,
     "learning_rate": 4.5e-06,
-    "num_tokens": 531260.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.777,
-    "step": 1554
+    "num_tokens": 1064864.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.553,
+    "step": 1553
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.39406508207321167,
+    "loss": 0.0565,
+    "grad_norm": 0.8929548859596252,
     "learning_rate": 4.49e-06,
-    "num_tokens": 531351.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7775,
-    "step": 1555
+    "num_tokens": 1065888.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.554,
+    "step": 1554
   },
   {
-    "loss": 0.0752,
-    "grad_norm": 1.9515206813812256,
+    "loss": 0.0466,
+    "grad_norm": 0.8937817215919495,
     "learning_rate": 4.48e-06,
-    "num_tokens": 531863.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.778,
-    "step": 1556
+    "num_tokens": 1066491.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.5550000000000002,
+    "step": 1555
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.3835340738296509,
+    "loss": 0.0609,
+    "grad_norm": 0.8740326166152954,
     "learning_rate": 4.47e-06,
-    "num_tokens": 531954.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7785,
-    "step": 1557
+    "num_tokens": 1067515.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.556,
+    "step": 1556
   },
   {
-    "loss": 0.059,
-    "grad_norm": 1.1221628189086914,
+    "loss": 0.0352,
+    "grad_norm": 0.8204190135002136,
     "learning_rate": 4.4600000000000005e-06,
-    "num_tokens": 532466.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.779,
-    "step": 1558
+    "num_tokens": 1068118.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.557,
+    "step": 1557
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3509887456893921,
+    "loss": 0.0447,
+    "grad_norm": 0.7500142455101013,
     "learning_rate": 4.450000000000001e-06,
-    "num_tokens": 532557.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7795,
-    "step": 1559
+    "num_tokens": 1068721.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.558,
+    "step": 1558
   },
   {
-    "loss": 0.064,
-    "grad_norm": 1.205573320388794,
+    "loss": 0.0503,
+    "grad_norm": 0.7551432847976685,
     "learning_rate": 4.440000000000001e-06,
-    "num_tokens": 533069.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.78,
-    "step": 1560
+    "num_tokens": 1069745.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.5590000000000002,
+    "step": 1559
   },
   {
-    "loss": 0.0718,
-    "grad_norm": 2.1418721675872803,
+    "loss": 0.0352,
+    "grad_norm": 0.7508884072303772,
     "learning_rate": 4.430000000000001e-06,
-    "num_tokens": 533581.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.7805,
-    "step": 1561
+    "num_tokens": 1070348.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.56,
+    "step": 1560
   },
   {
-    "loss": 0.0414,
-    "grad_norm": 1.3037139177322388,
+    "loss": 0.0521,
+    "grad_norm": 0.9934411644935608,
     "learning_rate": 4.42e-06,
-    "num_tokens": 534093.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.781,
-    "step": 1562
+    "num_tokens": 1070951.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.561,
+    "step": 1561
   },
   {
-    "loss": 0.0736,
-    "grad_norm": 2.1680147647857666,
+    "loss": 0.0459,
+    "grad_norm": 0.6874534487724304,
     "learning_rate": 4.41e-06,
-    "num_tokens": 534605.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.7815,
-    "step": 1563
+    "num_tokens": 1071975.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.562,
+    "step": 1562
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.347339004278183,
+    "loss": 0.0501,
+    "grad_norm": 0.7553894519805908,
     "learning_rate": 4.4e-06,
-    "num_tokens": 534696.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.782,
-    "step": 1564
+    "num_tokens": 1072999.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.563,
+    "step": 1563
   },
   {
-    "loss": 0.0736,
-    "grad_norm": 2.0864803791046143,
+    "loss": 0.0073,
+    "grad_norm": 1.179804801940918,
     "learning_rate": 4.39e-06,
-    "num_tokens": 535208.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.7825,
-    "step": 1565
+    "num_tokens": 1073181.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.564,
+    "step": 1564
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.4395049810409546,
+    "loss": 0.0487,
+    "grad_norm": 0.7780734896659851,
     "learning_rate": 4.38e-06,
-    "num_tokens": 535299.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.783,
-    "step": 1566
+    "num_tokens": 1074205.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.565,
+    "step": 1565
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.39004504680633545,
+    "loss": 0.0071,
+    "grad_norm": 1.1694072484970093,
     "learning_rate": 4.3700000000000005e-06,
-    "num_tokens": 535390.0,
+    "num_tokens": 1074387.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.7835,
-    "step": 1567
+    "epoch": 1.5659999999999998,
+    "step": 1566
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.36095598340034485,
+    "loss": 0.0516,
+    "grad_norm": 1.098961353302002,
     "learning_rate": 4.360000000000001e-06,
-    "num_tokens": 535481.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.784,
-    "step": 1568
+    "num_tokens": 1074990.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.567,
+    "step": 1567
   },
   {
-    "loss": 0.0582,
-    "grad_norm": 1.2327930927276611,
+    "loss": 0.0456,
+    "grad_norm": 0.7084697484970093,
     "learning_rate": 4.350000000000001e-06,
-    "num_tokens": 535993.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.7845,
-    "step": 1569
+    "num_tokens": 1076014.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.568,
+    "step": 1568
   },
   {
-    "loss": 0.0461,
-    "grad_norm": 1.040818452835083,
+    "loss": 0.0572,
+    "grad_norm": 0.8608739376068115,
     "learning_rate": 4.34e-06,
-    "num_tokens": 536505.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.785,
-    "step": 1570
+    "num_tokens": 1077038.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 1.569,
+    "step": 1569
   },
   {
-    "loss": 0.248,
-    "grad_norm": 5.55968713760376,
+    "loss": 0.0536,
+    "grad_norm": 1.1235098838806152,
     "learning_rate": 4.33e-06,
-    "num_tokens": 537017.0,
-    "mean_token_accuracy": 0.9354207515716553,
-    "epoch": 0.7855,
-    "step": 1571
+    "num_tokens": 1077641.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.5699999999999998,
+    "step": 1570
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.33996713161468506,
+    "loss": 0.0061,
+    "grad_norm": 1.022011399269104,
     "learning_rate": 4.32e-06,
-    "num_tokens": 537108.0,
+    "num_tokens": 1077823.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.786,
-    "step": 1572
+    "epoch": 1.571,
+    "step": 1571
   },
   {
-    "loss": 0.0885,
-    "grad_norm": 1.9103176593780518,
+    "loss": 0.0594,
+    "grad_norm": 0.8419452905654907,
     "learning_rate": 4.31e-06,
-    "num_tokens": 537620.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.7865,
-    "step": 1573
+    "num_tokens": 1078847.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.572,
+    "step": 1572
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3596363663673401,
+    "loss": 0.0376,
+    "grad_norm": 0.7862662672996521,
     "learning_rate": 4.3e-06,
-    "num_tokens": 537711.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.787,
-    "step": 1574
+    "num_tokens": 1079871.0,
+    "mean_token_accuracy": 0.9843444228172302,
+    "epoch": 1.573,
+    "step": 1573
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.38911113142967224,
+    "loss": 0.0397,
+    "grad_norm": 0.7846319079399109,
     "learning_rate": 4.2900000000000004e-06,
-    "num_tokens": 537802.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7875,
-    "step": 1575
+    "num_tokens": 1080895.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 1.5739999999999998,
+    "step": 1574
   },
   {
-    "loss": 0.0575,
-    "grad_norm": 1.1043959856033325,
+    "loss": 0.0061,
+    "grad_norm": 1.02032470703125,
     "learning_rate": 4.2800000000000005e-06,
-    "num_tokens": 538314.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.788,
-    "step": 1576
+    "num_tokens": 1081077.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.575,
+    "step": 1575
   },
   {
-    "loss": 0.0398,
-    "grad_norm": 1.0082714557647705,
+    "loss": 0.0358,
+    "grad_norm": 0.8401283621788025,
     "learning_rate": 4.270000000000001e-06,
-    "num_tokens": 538826.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.7885,
-    "step": 1577
+    "num_tokens": 1081680.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.576,
+    "step": 1576
   },
   {
-    "loss": 0.07,
-    "grad_norm": 1.312532901763916,
+    "loss": 0.0423,
+    "grad_norm": 0.9667369723320007,
     "learning_rate": 4.26e-06,
-    "num_tokens": 539338.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.789,
-    "step": 1578
+    "num_tokens": 1082283.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.577,
+    "step": 1577
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.314879834651947,
+    "loss": 0.0427,
+    "grad_norm": 0.9331235289573669,
     "learning_rate": 4.25e-06,
-    "num_tokens": 539429.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7895,
-    "step": 1579
+    "num_tokens": 1083307.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 1.5779999999999998,
+    "step": 1578
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.32559505105018616,
+    "loss": 0.0341,
+    "grad_norm": 0.7807062268257141,
     "learning_rate": 4.24e-06,
-    "num_tokens": 539520.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.79,
-    "step": 1580
+    "num_tokens": 1083910.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.579,
+    "step": 1579
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3332079350948334,
+    "loss": 0.0491,
+    "grad_norm": 0.861403226852417,
     "learning_rate": 4.23e-06,
-    "num_tokens": 539611.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7905,
-    "step": 1581
+    "num_tokens": 1084513.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.58,
+    "step": 1580
   },
   {
-    "loss": 0.0585,
-    "grad_norm": 1.1406902074813843,
+    "loss": 0.0581,
+    "grad_norm": 1.2565624713897705,
     "learning_rate": 4.22e-06,
-    "num_tokens": 540123.0,
+    "num_tokens": 1085537.0,
     "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.791,
-    "step": 1582
+    "epoch": 1.581,
+    "step": 1581
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.2799522876739502,
+    "loss": 0.0927,
+    "grad_norm": 1.466109275817871,
     "learning_rate": 4.21e-06,
-    "num_tokens": 540214.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7915,
-    "step": 1583
+    "num_tokens": 1086561.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 1.5819999999999999,
+    "step": 1582
   },
   {
-    "loss": 0.0525,
-    "grad_norm": 1.1263917684555054,
+    "loss": 0.0519,
+    "grad_norm": 1.1252888441085815,
     "learning_rate": 4.2000000000000004e-06,
-    "num_tokens": 540726.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.792,
-    "step": 1584
+    "num_tokens": 1087585.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.583,
+    "step": 1583
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.28769129514694214,
+    "loss": 0.0534,
+    "grad_norm": 1.0422850847244263,
     "learning_rate": 4.1900000000000005e-06,
-    "num_tokens": 540817.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7925,
-    "step": 1585
+    "num_tokens": 1088188.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.584,
+    "step": 1584
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.3043234348297119,
+    "loss": 0.0059,
+    "grad_norm": 0.9880717396736145,
     "learning_rate": 4.18e-06,
-    "num_tokens": 540908.0,
+    "num_tokens": 1088370.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.793,
-    "step": 1586
+    "epoch": 1.585,
+    "step": 1585
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.2788783311843872,
+    "loss": 0.0318,
+    "grad_norm": 0.8194119930267334,
     "learning_rate": 4.17e-06,
-    "num_tokens": 540999.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7935,
-    "step": 1587
+    "num_tokens": 1088973.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.5859999999999999,
+    "step": 1586
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.3088054358959198,
+    "loss": 0.035,
+    "grad_norm": 0.9220993518829346,
     "learning_rate": 4.16e-06,
-    "num_tokens": 541090.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.794,
-    "step": 1588
+    "num_tokens": 1089576.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.587,
+    "step": 1587
   },
   {
-    "loss": 0.0382,
-    "grad_norm": 1.0789445638656616,
+    "loss": 0.0058,
+    "grad_norm": 0.9712525010108948,
     "learning_rate": 4.15e-06,
-    "num_tokens": 541602.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.7945,
-    "step": 1589
+    "num_tokens": 1089758.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.588,
+    "step": 1588
   },
   {
-    "loss": 0.0435,
-    "grad_norm": 1.0291471481323242,
-    "learning_rate": 4.14e-06,
-    "num_tokens": 542114.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.795,
-    "step": 1590
+    "loss": 0.0449,
+    "grad_norm": 0.7077950835227966,
+    "learning_rate": 4.14e-06,
+    "num_tokens": 1090782.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.589,
+    "step": 1589
   },
   {
-    "loss": 0.0754,
-    "grad_norm": 1.4396899938583374,
+    "loss": 0.0529,
+    "grad_norm": 0.994533360004425,
     "learning_rate": 4.13e-06,
-    "num_tokens": 542626.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.7955,
-    "step": 1591
+    "num_tokens": 1091385.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.5899999999999999,
+    "step": 1590
   },
   {
-    "loss": 0.05,
-    "grad_norm": 1.1235865354537964,
+    "loss": 0.0495,
+    "grad_norm": 0.8751122355461121,
     "learning_rate": 4.12e-06,
-    "num_tokens": 543138.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.796,
-    "step": 1592
+    "num_tokens": 1091988.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.591,
+    "step": 1591
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.2745732069015503,
+    "loss": 0.0476,
+    "grad_norm": 0.8288613557815552,
     "learning_rate": 4.1100000000000005e-06,
-    "num_tokens": 543229.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.7965,
-    "step": 1593
+    "num_tokens": 1093012.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.592,
+    "step": 1592
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.2619018256664276,
+    "loss": 0.0601,
+    "grad_norm": 1.0450148582458496,
     "learning_rate": 4.1e-06,
-    "num_tokens": 543320.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.797,
-    "step": 1594
+    "num_tokens": 1094036.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.593,
+    "step": 1593
   },
   {
-    "loss": 0.063,
-    "grad_norm": 1.068122148513794,
+    "loss": 0.0063,
+    "grad_norm": 1.0433647632598877,
     "learning_rate": 4.09e-06,
-    "num_tokens": 543832.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.7975,
-    "step": 1595
+    "num_tokens": 1094218.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.5939999999999999,
+    "step": 1594
   },
   {
-    "loss": 0.076,
-    "grad_norm": 1.5099190473556519,
+    "loss": 0.0575,
+    "grad_norm": 1.1538662910461426,
     "learning_rate": 4.08e-06,
-    "num_tokens": 544344.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.798,
-    "step": 1596
+    "num_tokens": 1094821.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.595,
+    "step": 1595
   },
   {
-    "loss": 0.075,
-    "grad_norm": 1.370004415512085,
+    "loss": 0.0362,
+    "grad_norm": 0.8405407667160034,
     "learning_rate": 4.07e-06,
-    "num_tokens": 544856.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.7985,
-    "step": 1597
+    "num_tokens": 1095424.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.596,
+    "step": 1596
   },
   {
-    "loss": 0.06,
-    "grad_norm": 1.2732493877410889,
+    "loss": 0.0611,
+    "grad_norm": 0.9581584334373474,
     "learning_rate": 4.060000000000001e-06,
-    "num_tokens": 545368.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.799,
-    "step": 1598
+    "num_tokens": 1096448.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.597,
+    "step": 1597
   },
   {
-    "loss": 0.045,
-    "grad_norm": 1.2496861219406128,
+    "loss": 0.0583,
+    "grad_norm": 1.2413828372955322,
     "learning_rate": 4.05e-06,
-    "num_tokens": 545880.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.7995,
-    "step": 1599
+    "num_tokens": 1097051.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.5979999999999999,
+    "step": 1598
   },
   {
-    "loss": 0.0471,
-    "grad_norm": 1.1135365962982178,
+    "loss": 0.0515,
+    "grad_norm": 1.0595495700836182,
     "learning_rate": 4.04e-06,
-    "num_tokens": 546392.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.8,
-    "step": 1600
+    "num_tokens": 1097654.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.599,
+    "step": 1599
   },
   {
-    "loss": 0.0668,
-    "grad_norm": 1.5768578052520752,
+    "loss": 0.039,
+    "grad_norm": 0.931210458278656,
     "learning_rate": 4.03e-06,
-    "num_tokens": 546904.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.8005,
-    "step": 1601
+    "num_tokens": 1098257.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.6,
+    "step": 1600
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.3887575566768646,
+    "loss": 0.0316,
+    "grad_norm": 0.8093856573104858,
     "learning_rate": 4.0200000000000005e-06,
-    "num_tokens": 546995.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.801,
-    "step": 1602
+    "num_tokens": 1098860.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.601,
+    "step": 1601
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.3817980885505676,
+    "loss": 0.0312,
+    "grad_norm": 0.8087005019187927,
     "learning_rate": 4.0100000000000006e-06,
-    "num_tokens": 547086.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8015,
-    "step": 1603
+    "num_tokens": 1099463.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.6019999999999999,
+    "step": 1602
   },
   {
-    "loss": 0.2858,
-    "grad_norm": 5.93766975402832,
+    "loss": 0.0482,
+    "grad_norm": 0.9823475480079651,
     "learning_rate": 4.000000000000001e-06,
-    "num_tokens": 547598.0,
-    "mean_token_accuracy": 0.9334638118743896,
-    "epoch": 0.802,
-    "step": 1604
+    "num_tokens": 1100487.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.603,
+    "step": 1603
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.3757269084453583,
+    "loss": 0.0527,
+    "grad_norm": 0.8676301836967468,
     "learning_rate": 3.990000000000001e-06,
-    "num_tokens": 547689.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8025,
-    "step": 1605
+    "num_tokens": 1101090.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.604,
+    "step": 1604
   },
   {
-    "loss": 0.0611,
-    "grad_norm": 1.3149932622909546,
+    "loss": 0.0596,
+    "grad_norm": 0.9275328516960144,
     "learning_rate": 3.980000000000001e-06,
-    "num_tokens": 548201.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.803,
-    "step": 1606
+    "num_tokens": 1102114.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.605,
+    "step": 1605
   },
   {
-    "loss": 0.085,
-    "grad_norm": 1.8090168237686157,
+    "loss": 0.0302,
+    "grad_norm": 0.8553646802902222,
     "learning_rate": 3.97e-06,
-    "num_tokens": 548713.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.8035,
-    "step": 1607
+    "num_tokens": 1102717.0,
+    "mean_token_accuracy": 0.9883527159690857,
+    "epoch": 1.6059999999999999,
+    "step": 1606
   },
   {
-    "loss": 0.0624,
-    "grad_norm": 1.2021411657333374,
+    "loss": 0.0064,
+    "grad_norm": 1.1059050559997559,
     "learning_rate": 3.96e-06,
-    "num_tokens": 549225.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.804,
-    "step": 1608
+    "num_tokens": 1102899.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.607,
+    "step": 1607
   },
   {
-    "loss": 0.0597,
-    "grad_norm": 1.1230809688568115,
+    "loss": 0.036,
+    "grad_norm": 0.7443641424179077,
     "learning_rate": 3.95e-06,
-    "num_tokens": 549737.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.8045,
-    "step": 1609
+    "num_tokens": 1103502.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.608,
+    "step": 1608
   },
   {
-    "loss": 0.0521,
-    "grad_norm": 1.225655198097229,
+    "loss": 0.0629,
+    "grad_norm": 0.9508353471755981,
     "learning_rate": 3.94e-06,
-    "num_tokens": 550249.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.805,
-    "step": 1610
+    "num_tokens": 1104526.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.609,
+    "step": 1609
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.4546661674976349,
+    "loss": 0.0069,
+    "grad_norm": 1.15656578540802,
     "learning_rate": 3.9300000000000005e-06,
-    "num_tokens": 550340.0,
+    "num_tokens": 1104708.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.8055,
-    "step": 1611
+    "epoch": 1.6099999999999999,
+    "step": 1610
   },
   {
-    "loss": 0.2426,
-    "grad_norm": 4.83814001083374,
+    "loss": 0.0496,
+    "grad_norm": 0.723640501499176,
     "learning_rate": 3.920000000000001e-06,
-    "num_tokens": 550852.0,
-    "mean_token_accuracy": 0.9354207515716553,
-    "epoch": 0.806,
-    "step": 1612
+    "num_tokens": 1105732.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.611,
+    "step": 1611
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.5268356800079346,
+    "loss": 0.0625,
+    "grad_norm": 1.0058673620224,
     "learning_rate": 3.910000000000001e-06,
-    "num_tokens": 550943.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8065,
-    "step": 1613
+    "num_tokens": 1106756.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.612,
+    "step": 1612
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.5073143839836121,
+    "loss": 0.0483,
+    "grad_norm": 0.7778430581092834,
     "learning_rate": 3.900000000000001e-06,
-    "num_tokens": 551034.0,
+    "num_tokens": 1107780.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.613,
+    "step": 1613
+  },
+  {
+    "loss": 0.0065,
+    "grad_norm": 1.1014611721038818,
+    "learning_rate": 3.89e-06,
+    "num_tokens": 1107962.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.807,
+    "epoch": 1.6139999999999999,
     "step": 1614
   },
   {
-    "loss": 0.0571,
-    "grad_norm": 1.12201988697052,
-    "learning_rate": 3.89e-06,
-    "num_tokens": 551546.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.8075,
+    "loss": 0.0623,
+    "grad_norm": 0.8831361532211304,
+    "learning_rate": 3.88e-06,
+    "num_tokens": 1108986.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.615,
     "step": 1615
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.441703200340271,
-    "learning_rate": 3.88e-06,
-    "num_tokens": 551637.0,
+    "loss": 0.0061,
+    "grad_norm": 1.0461324453353882,
+    "learning_rate": 3.87e-06,
+    "num_tokens": 1109168.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.808,
+    "epoch": 1.616,
     "step": 1616
   },
   {
-    "loss": 0.06,
-    "grad_norm": 1.055845022201538,
-    "learning_rate": 3.87e-06,
-    "num_tokens": 552149.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.8085,
+    "loss": 0.0499,
+    "grad_norm": 1.056103229522705,
+    "learning_rate": 3.86e-06,
+    "num_tokens": 1109771.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.617,
     "step": 1617
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.4252733290195465,
-    "learning_rate": 3.86e-06,
-    "num_tokens": 552240.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.809,
+    "loss": 0.0452,
+    "grad_norm": 0.7944758534431458,
+    "learning_rate": 3.85e-06,
+    "num_tokens": 1110374.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.6179999999999999,
     "step": 1618
   },
   {
-    "loss": 0.0654,
-    "grad_norm": 1.2097599506378174,
-    "learning_rate": 3.85e-06,
-    "num_tokens": 552752.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.8095,
+    "loss": 0.0315,
+    "grad_norm": 0.8054194450378418,
+    "learning_rate": 3.8400000000000005e-06,
+    "num_tokens": 1110977.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.619,
     "step": 1619
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.5153416395187378,
-    "learning_rate": 3.8400000000000005e-06,
-    "num_tokens": 552843.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.81,
+    "loss": 0.0504,
+    "grad_norm": 0.9761496782302856,
+    "learning_rate": 3.830000000000001e-06,
+    "num_tokens": 1111580.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.62,
     "step": 1620
   },
   {
-    "loss": 0.0412,
-    "grad_norm": 1.2524850368499756,
-    "learning_rate": 3.830000000000001e-06,
-    "num_tokens": 553355.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.8105,
+    "loss": 0.0658,
+    "grad_norm": 0.9077417254447937,
+    "learning_rate": 3.820000000000001e-06,
+    "num_tokens": 1112604.0,
+    "mean_token_accuracy": 0.965753436088562,
+    "epoch": 1.621,
     "step": 1621
   },
   {
-    "loss": 0.0603,
-    "grad_norm": 1.216737985610962,
-    "learning_rate": 3.820000000000001e-06,
-    "num_tokens": 553867.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.811,
+    "loss": 0.0477,
+    "grad_norm": 0.8071428537368774,
+    "learning_rate": 3.8100000000000004e-06,
+    "num_tokens": 1113207.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.6219999999999999,
     "step": 1622
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.4374849498271942,
-    "learning_rate": 3.8100000000000004e-06,
-    "num_tokens": 553958.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8115,
+    "loss": 0.041,
+    "grad_norm": 0.7867160439491272,
+    "learning_rate": 3.8000000000000005e-06,
+    "num_tokens": 1114231.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.623,
     "step": 1623
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.45386913418769836,
-    "learning_rate": 3.8000000000000005e-06,
-    "num_tokens": 554049.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.812,
+    "loss": 0.0332,
+    "grad_norm": 0.8921499252319336,
+    "learning_rate": 3.79e-06,
+    "num_tokens": 1114834.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.624,
     "step": 1624
   },
   {
-    "loss": 0.0772,
-    "grad_norm": 2.3643293380737305,
-    "learning_rate": 3.79e-06,
-    "num_tokens": 554561.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.8125,
+    "loss": 0.051,
+    "grad_norm": 0.9043579697608948,
+    "learning_rate": 3.7800000000000002e-06,
+    "num_tokens": 1115858.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.625,
     "step": 1625
   },
   {
-    "loss": 0.0585,
-    "grad_norm": 1.1927247047424316,
-    "learning_rate": 3.7800000000000002e-06,
-    "num_tokens": 555073.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.813,
+    "loss": 0.0613,
+    "grad_norm": 1.0464129447937012,
+    "learning_rate": 3.7700000000000003e-06,
+    "num_tokens": 1116882.0,
+    "mean_token_accuracy": 0.9667319059371948,
+    "epoch": 1.626,
     "step": 1626
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.4038313329219818,
-    "learning_rate": 3.7700000000000003e-06,
-    "num_tokens": 555164.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8135,
+    "loss": 0.058,
+    "grad_norm": 1.1696254014968872,
+    "learning_rate": 3.7600000000000004e-06,
+    "num_tokens": 1117485.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 1.627,
     "step": 1627
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.3948758542537689,
-    "learning_rate": 3.7600000000000004e-06,
-    "num_tokens": 555255.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.814,
+    "loss": 0.0549,
+    "grad_norm": 0.8511863946914673,
+    "learning_rate": 3.7500000000000005e-06,
+    "num_tokens": 1118509.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 1.6280000000000001,
     "step": 1628
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.36720144748687744,
-    "learning_rate": 3.7500000000000005e-06,
-    "num_tokens": 555346.0,
+    "loss": 0.0063,
+    "grad_norm": 1.0807744264602661,
+    "learning_rate": 3.74e-06,
+    "num_tokens": 1118691.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.8145,
+    "epoch": 1.629,
     "step": 1629
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.3845508098602295,
-    "learning_rate": 3.74e-06,
-    "num_tokens": 555437.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.815,
+    "loss": 0.0509,
+    "grad_norm": 0.9100387096405029,
+    "learning_rate": 3.7300000000000003e-06,
+    "num_tokens": 1119294.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.63,
     "step": 1630
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.33976465463638306,
-    "learning_rate": 3.7300000000000003e-06,
-    "num_tokens": 555528.0,
+    "loss": 0.0066,
+    "grad_norm": 1.1098606586456299,
+    "learning_rate": 3.7200000000000004e-06,
+    "num_tokens": 1119476.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.8155,
+    "epoch": 1.631,
     "step": 1631
   },
   {
-    "loss": 0.0656,
-    "grad_norm": 1.0829418897628784,
-    "learning_rate": 3.7200000000000004e-06,
-    "num_tokens": 556040.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.816,
-    "step": 1632
-  },
-  {
-    "loss": 0.0816,
-    "grad_norm": 1.7684704065322876,
+    "loss": 0.0459,
+    "grad_norm": 0.6645187139511108,
     "learning_rate": 3.7100000000000005e-06,
-    "num_tokens": 556552.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.8165,
-    "step": 1633
+    "num_tokens": 1120500.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.6320000000000001,
+    "step": 1632
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3379213809967041,
+    "loss": 0.0494,
+    "grad_norm": 1.1095669269561768,
     "learning_rate": 3.7e-06,
-    "num_tokens": 556643.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.817,
-    "step": 1634
+    "num_tokens": 1121103.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.633,
+    "step": 1633
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.268597275018692,
+    "loss": 0.0471,
+    "grad_norm": 0.8348158597946167,
     "learning_rate": 3.6900000000000002e-06,
-    "num_tokens": 556734.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8175,
-    "step": 1635
+    "num_tokens": 1121706.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.634,
+    "step": 1634
   },
   {
-    "loss": 0.0571,
-    "grad_norm": 1.7145894765853882,
+    "loss": 0.0563,
+    "grad_norm": 0.8096620440483093,
     "learning_rate": 3.6800000000000003e-06,
-    "num_tokens": 557246.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.818,
-    "step": 1636
+    "num_tokens": 1122730.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.635,
+    "step": 1635
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.262333482503891,
+    "loss": 0.0498,
+    "grad_norm": 0.7935335636138916,
     "learning_rate": 3.6700000000000004e-06,
-    "num_tokens": 557337.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8185,
-    "step": 1637
+    "num_tokens": 1123754.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.6360000000000001,
+    "step": 1636
   },
   {
-    "loss": 0.0453,
-    "grad_norm": 1.0645833015441895,
+    "loss": 0.0962,
+    "grad_norm": 1.131250023841858,
     "learning_rate": 3.66e-06,
-    "num_tokens": 557849.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.819,
-    "step": 1638
+    "num_tokens": 1124778.0,
+    "mean_token_accuracy": 0.9647749662399292,
+    "epoch": 1.637,
+    "step": 1637
   },
   {
-    "loss": 0.0596,
-    "grad_norm": 1.364123821258545,
+    "loss": 0.0365,
+    "grad_norm": 0.808918297290802,
     "learning_rate": 3.65e-06,
-    "num_tokens": 558361.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.8195,
-    "step": 1639
+    "num_tokens": 1125381.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.638,
+    "step": 1638
   },
   {
-    "loss": 0.0472,
-    "grad_norm": 0.9277791380882263,
+    "loss": 0.0063,
+    "grad_norm": 1.0540261268615723,
     "learning_rate": 3.6400000000000003e-06,
-    "num_tokens": 558873.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.82,
-    "step": 1640
+    "num_tokens": 1125563.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.639,
+    "step": 1639
   },
   {
-    "loss": 0.062,
-    "grad_norm": 1.2970867156982422,
+    "loss": 0.0631,
+    "grad_norm": 0.9925756454467773,
     "learning_rate": 3.6300000000000004e-06,
-    "num_tokens": 559385.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.8205,
-    "step": 1641
+    "num_tokens": 1126587.0,
+    "mean_token_accuracy": 0.965753436088562,
+    "epoch": 1.6400000000000001,
+    "step": 1640
   },
   {
-    "loss": 0.0486,
-    "grad_norm": 1.1752419471740723,
+    "loss": 0.057,
+    "grad_norm": 0.8026877641677856,
     "learning_rate": 3.62e-06,
-    "num_tokens": 559897.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.821,
-    "step": 1642
+    "num_tokens": 1127611.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.641,
+    "step": 1641
   },
   {
-    "loss": 0.067,
-    "grad_norm": 1.646427869796753,
+    "loss": 0.0331,
+    "grad_norm": 0.7825866937637329,
     "learning_rate": 3.61e-06,
-    "num_tokens": 560409.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.8215,
-    "step": 1643
+    "num_tokens": 1128214.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.642,
+    "step": 1642
   },
   {
-    "loss": 0.0488,
-    "grad_norm": 1.3798638582229614,
+    "loss": 0.0395,
+    "grad_norm": 0.9599487781524658,
     "learning_rate": 3.6000000000000003e-06,
-    "num_tokens": 560921.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.822,
-    "step": 1644
+    "num_tokens": 1129238.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 1.643,
+    "step": 1643
   },
   {
-    "loss": 0.0585,
-    "grad_norm": 1.2615973949432373,
+    "loss": 0.054,
+    "grad_norm": 0.8558062314987183,
     "learning_rate": 3.5900000000000004e-06,
-    "num_tokens": 561433.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.8225,
-    "step": 1645
+    "num_tokens": 1130262.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.6440000000000001,
+    "step": 1644
   },
   {
-    "loss": 0.0536,
-    "grad_norm": 1.4801198244094849,
+    "loss": 0.0073,
+    "grad_norm": 1.2038366794586182,
     "learning_rate": 3.58e-06,
-    "num_tokens": 561945.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.823,
-    "step": 1646
+    "num_tokens": 1130444.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.645,
+    "step": 1645
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3402940332889557,
+    "loss": 0.0493,
+    "grad_norm": 0.989517867565155,
     "learning_rate": 3.57e-06,
-    "num_tokens": 562036.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8235,
-    "step": 1647
+    "num_tokens": 1131468.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.646,
+    "step": 1646
   },
   {
-    "loss": 0.0506,
-    "grad_norm": 0.878396213054657,
+    "loss": 0.0503,
+    "grad_norm": 0.8166787624359131,
     "learning_rate": 3.5600000000000002e-06,
-    "num_tokens": 562548.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.824,
-    "step": 1648
+    "num_tokens": 1132071.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.647,
+    "step": 1647
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.37959179282188416,
+    "loss": 0.0067,
+    "grad_norm": 1.1410889625549316,
     "learning_rate": 3.5500000000000003e-06,
-    "num_tokens": 562639.0,
+    "num_tokens": 1132253.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.8245,
-    "step": 1649
+    "epoch": 1.6480000000000001,
+    "step": 1648
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.39978647232055664,
+    "loss": 0.0621,
+    "grad_norm": 0.9194291234016418,
     "learning_rate": 3.54e-06,
-    "num_tokens": 562730.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.825,
-    "step": 1650
+    "num_tokens": 1133277.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.649,
+    "step": 1649
   },
   {
-    "loss": 0.0692,
-    "grad_norm": 1.6479856967926025,
+    "loss": 0.0507,
+    "grad_norm": 0.981034517288208,
     "learning_rate": 3.53e-06,
-    "num_tokens": 563242.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.8255,
-    "step": 1651
+    "num_tokens": 1133880.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.65,
+    "step": 1650
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.37655898928642273,
+    "loss": 0.0512,
+    "grad_norm": 0.7907586097717285,
     "learning_rate": 3.52e-06,
-    "num_tokens": 563333.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.826,
-    "step": 1652
+    "num_tokens": 1134904.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.651,
+    "step": 1651
   },
   {
-    "loss": 0.0547,
-    "grad_norm": 1.4809867143630981,
+    "loss": 0.0574,
+    "grad_norm": 0.8653498291969299,
     "learning_rate": 3.5100000000000003e-06,
-    "num_tokens": 563845.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.8265,
-    "step": 1653
+    "num_tokens": 1135928.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.6520000000000001,
+    "step": 1652
   },
   {
-    "loss": 0.038,
-    "grad_norm": 1.2819538116455078,
+    "loss": 0.0509,
+    "grad_norm": 1.11887788772583,
     "learning_rate": 3.5e-06,
-    "num_tokens": 564357.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.827,
-    "step": 1654
+    "num_tokens": 1136531.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.653,
+    "step": 1653
   },
   {
-    "loss": 0.0437,
-    "grad_norm": 1.2474430799484253,
+    "loss": 0.0568,
+    "grad_norm": 1.312667727470398,
     "learning_rate": 3.49e-06,
-    "num_tokens": 564869.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.8275,
-    "step": 1655
+    "num_tokens": 1137134.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.654,
+    "step": 1654
   },
   {
-    "loss": 0.0611,
-    "grad_norm": 1.1493180990219116,
+    "loss": 0.0523,
+    "grad_norm": 1.0086694955825806,
     "learning_rate": 3.48e-06,
-    "num_tokens": 565381.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.828,
-    "step": 1656
+    "num_tokens": 1137737.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.655,
+    "step": 1655
   },
   {
-    "loss": 0.062,
-    "grad_norm": 1.4344936609268188,
+    "loss": 0.0061,
+    "grad_norm": 1.0424482822418213,
     "learning_rate": 3.4700000000000002e-06,
-    "num_tokens": 565893.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.8285,
-    "step": 1657
+    "num_tokens": 1137919.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.6560000000000001,
+    "step": 1656
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.501312255859375,
+    "loss": 0.0443,
+    "grad_norm": 0.8345255255699158,
     "learning_rate": 3.46e-06,
-    "num_tokens": 565984.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.829,
-    "step": 1658
+    "num_tokens": 1138522.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.657,
+    "step": 1657
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.57524174451828,
+    "loss": 0.0511,
+    "grad_norm": 0.9122284054756165,
     "learning_rate": 3.45e-06,
-    "num_tokens": 566075.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8295,
-    "step": 1659
+    "num_tokens": 1139546.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.658,
+    "step": 1658
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.546630322933197,
+    "loss": 0.0425,
+    "grad_norm": 0.8380939960479736,
     "learning_rate": 3.44e-06,
-    "num_tokens": 566166.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.83,
-    "step": 1660
+    "num_tokens": 1140149.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.659,
+    "step": 1659
   },
   {
-    "loss": 0.0028,
-    "grad_norm": 0.5239407420158386,
+    "loss": 0.0441,
+    "grad_norm": 0.7784305810928345,
     "learning_rate": 3.4300000000000006e-06,
-    "num_tokens": 566257.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8305,
-    "step": 1661
+    "num_tokens": 1141173.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.6600000000000001,
+    "step": 1660
   },
   {
-    "loss": 0.0395,
-    "grad_norm": 0.8654681444168091,
+    "loss": 0.0535,
+    "grad_norm": 0.9853757619857788,
     "learning_rate": 3.4200000000000007e-06,
-    "num_tokens": 566769.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.831,
-    "step": 1662
+    "num_tokens": 1142197.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.661,
+    "step": 1661
   },
   {
-    "loss": 0.0399,
-    "grad_norm": 0.9791849851608276,
+    "loss": 0.0571,
+    "grad_norm": 0.8722765445709229,
     "learning_rate": 3.4100000000000004e-06,
-    "num_tokens": 567281.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.8315,
-    "step": 1663
+    "num_tokens": 1143221.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 1.662,
+    "step": 1662
   },
   {
-    "loss": 0.0714,
-    "grad_norm": 1.4680542945861816,
+    "loss": 0.059,
+    "grad_norm": 1.0534354448318481,
     "learning_rate": 3.4000000000000005e-06,
-    "num_tokens": 567793.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.832,
-    "step": 1664
+    "num_tokens": 1144245.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.663,
+    "step": 1663
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.5489619970321655,
+    "loss": 0.0068,
+    "grad_norm": 1.146028757095337,
     "learning_rate": 3.3900000000000006e-06,
-    "num_tokens": 567884.0,
+    "num_tokens": 1144427.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.8325,
-    "step": 1665
+    "epoch": 1.6640000000000001,
+    "step": 1664
   },
   {
-    "loss": 0.0652,
-    "grad_norm": 1.445259690284729,
+    "loss": 0.0548,
+    "grad_norm": 0.8375920057296753,
     "learning_rate": 3.3800000000000007e-06,
-    "num_tokens": 568396.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.833,
-    "step": 1666
+    "num_tokens": 1145451.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.665,
+    "step": 1665
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.554716944694519,
+    "loss": 0.0449,
+    "grad_norm": 1.0094847679138184,
     "learning_rate": 3.3700000000000003e-06,
-    "num_tokens": 568487.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8335,
-    "step": 1667
+    "num_tokens": 1146054.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.666,
+    "step": 1666
   },
   {
-    "loss": 0.0655,
-    "grad_norm": 1.0966905355453491,
+    "loss": 0.045,
+    "grad_norm": 0.8592609763145447,
     "learning_rate": 3.3600000000000004e-06,
-    "num_tokens": 568999.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.834,
-    "step": 1668
+    "num_tokens": 1146657.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.667,
+    "step": 1667
   },
   {
-    "loss": 0.0494,
-    "grad_norm": 1.049824833869934,
+    "loss": 0.0381,
+    "grad_norm": 0.7064121961593628,
     "learning_rate": 3.3500000000000005e-06,
-    "num_tokens": 569511.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.8345,
-    "step": 1669
+    "num_tokens": 1147681.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.6680000000000001,
+    "step": 1668
   },
   {
-    "loss": 0.0591,
-    "grad_norm": 1.8449171781539917,
+    "loss": 0.0403,
+    "grad_norm": 0.9719851016998291,
     "learning_rate": 3.3400000000000006e-06,
-    "num_tokens": 570023.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.835,
-    "step": 1670
+    "num_tokens": 1148284.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.669,
+    "step": 1669
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.5422641634941101,
+    "loss": 0.0422,
+    "grad_norm": 0.8167884945869446,
     "learning_rate": 3.3300000000000003e-06,
-    "num_tokens": 570114.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8355,
-    "step": 1671
+    "num_tokens": 1148887.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.67,
+    "step": 1670
   },
   {
-    "loss": 0.0805,
-    "grad_norm": 1.8794130086898804,
+    "loss": 0.054,
+    "grad_norm": 1.1122660636901855,
     "learning_rate": 3.3200000000000004e-06,
-    "num_tokens": 570626.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.836,
-    "step": 1672
+    "num_tokens": 1149490.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.671,
+    "step": 1671
   },
   {
-    "loss": 0.0481,
-    "grad_norm": 0.9934747219085693,
+    "loss": 0.0464,
+    "grad_norm": 0.8594599366188049,
     "learning_rate": 3.3100000000000005e-06,
-    "num_tokens": 571138.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.8365,
-    "step": 1673
+    "num_tokens": 1150514.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.6720000000000002,
+    "step": 1672
   },
   {
-    "loss": 0.0497,
-    "grad_norm": 1.2348871231079102,
+    "loss": 0.0071,
+    "grad_norm": 1.174099326133728,
     "learning_rate": 3.3000000000000006e-06,
-    "num_tokens": 571650.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.837,
-    "step": 1674
+    "num_tokens": 1150696.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.673,
+    "step": 1673
   },
   {
-    "loss": 0.0444,
-    "grad_norm": 1.1614453792572021,
+    "loss": 0.0389,
+    "grad_norm": 0.7924457788467407,
     "learning_rate": 3.2900000000000003e-06,
-    "num_tokens": 572162.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.8375,
-    "step": 1675
+    "num_tokens": 1151720.0,
+    "mean_token_accuracy": 0.9823874831199646,
+    "epoch": 1.674,
+    "step": 1674
   },
   {
-    "loss": 0.0388,
-    "grad_norm": 1.22681725025177,
+    "loss": 0.0078,
+    "grad_norm": 1.306631088256836,
     "learning_rate": 3.2800000000000004e-06,
-    "num_tokens": 572674.0,
-    "mean_token_accuracy": 0.9882583022117615,
-    "epoch": 0.838,
-    "step": 1676
+    "num_tokens": 1151902.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.675,
+    "step": 1675
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.5757941603660583,
+    "loss": 0.0071,
+    "grad_norm": 1.1881757974624634,
     "learning_rate": 3.2700000000000005e-06,
-    "num_tokens": 572765.0,
+    "num_tokens": 1152084.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.8385,
-    "step": 1677
+    "epoch": 1.6760000000000002,
+    "step": 1676
   },
   {
-    "loss": 0.0034,
-    "grad_norm": 0.611791729927063,
+    "loss": 0.0339,
+    "grad_norm": 0.8299407362937927,
     "learning_rate": 3.2600000000000006e-06,
-    "num_tokens": 572856.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.839,
-    "step": 1678
+    "num_tokens": 1152687.0,
+    "mean_token_accuracy": 0.9883527159690857,
+    "epoch": 1.677,
+    "step": 1677
   },
   {
-    "loss": 0.0616,
-    "grad_norm": 1.136299967765808,
+    "loss": 0.0298,
+    "grad_norm": 0.7375956773757935,
     "learning_rate": 3.2500000000000002e-06,
-    "num_tokens": 573368.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.8395,
+    "num_tokens": 1153290.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.678,
+    "step": 1678
+  },
+  {
+    "loss": 0.0055,
+    "grad_norm": 0.9513365626335144,
+    "learning_rate": 3.2400000000000003e-06,
+    "num_tokens": 1153472.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.679,
     "step": 1679
   },
   {
-    "loss": 0.0433,
-    "grad_norm": 1.2018715143203735,
-    "learning_rate": 3.2400000000000003e-06,
-    "num_tokens": 573880.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.84,
+    "loss": 0.0058,
+    "grad_norm": 0.9881709218025208,
+    "learning_rate": 3.2300000000000004e-06,
+    "num_tokens": 1153654.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.6800000000000002,
     "step": 1680
   },
   {
-    "loss": 0.042,
-    "grad_norm": 1.0409917831420898,
-    "learning_rate": 3.2300000000000004e-06,
-    "num_tokens": 574392.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.8405,
+    "loss": 0.0049,
+    "grad_norm": 0.8430343270301819,
+    "learning_rate": 3.2200000000000005e-06,
+    "num_tokens": 1153836.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.681,
     "step": 1681
   },
   {
-    "loss": 0.044,
-    "grad_norm": 1.2323369979858398,
-    "learning_rate": 3.2200000000000005e-06,
-    "num_tokens": 574904.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.841,
+    "loss": 0.0612,
+    "grad_norm": 0.9250144958496094,
+    "learning_rate": 3.21e-06,
+    "num_tokens": 1154860.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 1.682,
     "step": 1682
   },
   {
-    "loss": 0.0034,
-    "grad_norm": 0.6153194904327393,
-    "learning_rate": 3.21e-06,
-    "num_tokens": 574995.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8415,
+    "loss": 0.066,
+    "grad_norm": 1.1275829076766968,
+    "learning_rate": 3.2000000000000003e-06,
+    "num_tokens": 1155884.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.683,
     "step": 1683
   },
   {
-    "loss": 0.0034,
-    "grad_norm": 0.6106674671173096,
-    "learning_rate": 3.2000000000000003e-06,
-    "num_tokens": 575086.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.842,
+    "loss": 0.0382,
+    "grad_norm": 0.895256519317627,
+    "learning_rate": 3.1900000000000004e-06,
+    "num_tokens": 1156908.0,
+    "mean_token_accuracy": 0.9823874831199646,
+    "epoch": 1.6840000000000002,
     "step": 1684
   },
   {
-    "loss": 0.0639,
-    "grad_norm": 1.089705467224121,
-    "learning_rate": 3.1900000000000004e-06,
-    "num_tokens": 575598.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.8425,
+    "loss": 0.0542,
+    "grad_norm": 1.2117300033569336,
+    "learning_rate": 3.1800000000000005e-06,
+    "num_tokens": 1157511.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.685,
     "step": 1685
   },
   {
-    "loss": 0.0692,
-    "grad_norm": 1.5026510953903198,
-    "learning_rate": 3.1800000000000005e-06,
-    "num_tokens": 576110.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.843,
+    "loss": 0.0574,
+    "grad_norm": 0.973501980304718,
+    "learning_rate": 3.17e-06,
+    "num_tokens": 1158114.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.686,
     "step": 1686
   },
   {
-    "loss": 0.0637,
-    "grad_norm": 1.383870005607605,
-    "learning_rate": 3.17e-06,
-    "num_tokens": 576622.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.8435,
+    "loss": 0.037,
+    "grad_norm": 0.9485671520233154,
+    "learning_rate": 3.1600000000000002e-06,
+    "num_tokens": 1158717.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.687,
     "step": 1687
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.568756639957428,
-    "learning_rate": 3.1600000000000002e-06,
-    "num_tokens": 576713.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.844,
+    "loss": 0.0546,
+    "grad_norm": 0.8555501699447632,
+    "learning_rate": 3.1500000000000003e-06,
+    "num_tokens": 1159741.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.688,
     "step": 1688
   },
   {
-    "loss": 0.0413,
-    "grad_norm": 1.2440272569656372,
-    "learning_rate": 3.1500000000000003e-06,
-    "num_tokens": 577225.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.8445,
+    "loss": 0.0602,
+    "grad_norm": 1.0455832481384277,
+    "learning_rate": 3.1400000000000004e-06,
+    "num_tokens": 1160765.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.689,
     "step": 1689
   },
   {
-    "loss": 0.039,
-    "grad_norm": 1.180145025253296,
-    "learning_rate": 3.1400000000000004e-06,
-    "num_tokens": 577737.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.845,
+    "loss": 0.033,
+    "grad_norm": 0.9069396257400513,
+    "learning_rate": 3.13e-06,
+    "num_tokens": 1161368.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.69,
     "step": 1690
   },
   {
-    "loss": 0.0033,
-    "grad_norm": 0.6265860795974731,
-    "learning_rate": 3.13e-06,
-    "num_tokens": 577828.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8455,
+    "loss": 0.0485,
+    "grad_norm": 0.9210625290870667,
+    "learning_rate": 3.12e-06,
+    "num_tokens": 1161971.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.6909999999999998,
     "step": 1691
   },
   {
-    "loss": 0.0033,
-    "grad_norm": 0.5880522727966309,
-    "learning_rate": 3.12e-06,
-    "num_tokens": 577919.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.846,
+    "loss": 0.044,
+    "grad_norm": 0.8520143628120422,
+    "learning_rate": 3.1100000000000003e-06,
+    "num_tokens": 1162574.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.692,
     "step": 1692
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.5984041690826416,
-    "learning_rate": 3.1100000000000003e-06,
-    "num_tokens": 578010.0,
+    "loss": 0.0038,
+    "grad_norm": 0.6605420708656311,
+    "learning_rate": 3.1000000000000004e-06,
+    "num_tokens": 1162756.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.8465,
+    "epoch": 1.693,
     "step": 1693
   },
   {
-    "loss": 0.0557,
-    "grad_norm": 1.0321638584136963,
-    "learning_rate": 3.1000000000000004e-06,
-    "num_tokens": 578522.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.847,
+    "loss": 0.0492,
+    "grad_norm": 1.0434776544570923,
+    "learning_rate": 3.09e-06,
+    "num_tokens": 1163359.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.694,
     "step": 1694
   },
   {
-    "loss": 0.0585,
-    "grad_norm": 1.1382465362548828,
-    "learning_rate": 3.09e-06,
-    "num_tokens": 579034.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.8475,
+    "loss": 0.0475,
+    "grad_norm": 0.8778819441795349,
+    "learning_rate": 3.08e-06,
+    "num_tokens": 1164383.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.6949999999999998,
     "step": 1695
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.5756648778915405,
-    "learning_rate": 3.08e-06,
-    "num_tokens": 579125.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.848,
+    "loss": 0.0427,
+    "grad_norm": 0.8830644488334656,
+    "learning_rate": 3.0700000000000003e-06,
+    "num_tokens": 1164986.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.696,
     "step": 1696
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.5428857207298279,
-    "learning_rate": 3.0700000000000003e-06,
-    "num_tokens": 579216.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8485,
+    "loss": 0.05,
+    "grad_norm": 1.0579566955566406,
+    "learning_rate": 3.0600000000000003e-06,
+    "num_tokens": 1165589.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.697,
     "step": 1697
   },
   {
-    "loss": 0.0774,
-    "grad_norm": 1.805572271347046,
-    "learning_rate": 3.0600000000000003e-06,
-    "num_tokens": 579728.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.849,
+    "loss": 0.0351,
+    "grad_norm": 0.850786566734314,
+    "learning_rate": 3.05e-06,
+    "num_tokens": 1166192.0,
+    "mean_token_accuracy": 0.9883527159690857,
+    "epoch": 1.698,
     "step": 1698
   },
   {
-    "loss": 0.0569,
-    "grad_norm": 1.139460563659668,
-    "learning_rate": 3.05e-06,
-    "num_tokens": 580240.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.8495,
+    "loss": 0.0451,
+    "grad_norm": 0.9166119694709778,
+    "learning_rate": 3.04e-06,
+    "num_tokens": 1166795.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.6989999999999998,
     "step": 1699
   },
   {
-    "loss": 0.0426,
-    "grad_norm": 1.383743405342102,
-    "learning_rate": 3.04e-06,
-    "num_tokens": 580752.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.85,
+    "loss": 0.0046,
+    "grad_norm": 0.7936509847640991,
+    "learning_rate": 3.0300000000000002e-06,
+    "num_tokens": 1166977.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.7,
     "step": 1700
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.4358248710632324,
-    "learning_rate": 3.0300000000000002e-06,
-    "num_tokens": 580843.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8505,
+    "loss": 0.055,
+    "grad_norm": 1.1245038509368896,
+    "learning_rate": 3.0200000000000003e-06,
+    "num_tokens": 1167580.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.701,
     "step": 1701
   },
   {
-    "loss": 0.0397,
-    "grad_norm": 1.0429037809371948,
-    "learning_rate": 3.0200000000000003e-06,
-    "num_tokens": 581355.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.851,
+    "loss": 0.0496,
+    "grad_norm": 0.7564581632614136,
+    "learning_rate": 3.01e-06,
+    "num_tokens": 1168604.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.702,
     "step": 1702
   },
   {
-    "loss": 0.0457,
-    "grad_norm": 1.3951339721679688,
-    "learning_rate": 3.01e-06,
-    "num_tokens": 581867.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.8515,
+    "loss": 0.048,
+    "grad_norm": 0.9736590385437012,
+    "learning_rate": 3e-06,
+    "num_tokens": 1169207.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.7029999999999998,
     "step": 1703
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.47018593549728394,
-    "learning_rate": 3e-06,
-    "num_tokens": 581958.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.852,
+    "loss": 0.0324,
+    "grad_norm": 0.7254967093467712,
+    "learning_rate": 2.99e-06,
+    "num_tokens": 1169810.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.704,
     "step": 1704
   },
   {
-    "loss": 0.0731,
-    "grad_norm": 1.9685642719268799,
-    "learning_rate": 2.99e-06,
-    "num_tokens": 582470.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.8525,
+    "loss": 0.0048,
+    "grad_norm": 0.8456124663352966,
+    "learning_rate": 2.9800000000000003e-06,
+    "num_tokens": 1169992.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.705,
     "step": 1705
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.45238158106803894,
-    "learning_rate": 2.9800000000000003e-06,
-    "num_tokens": 582561.0,
+    "loss": 0.0044,
+    "grad_norm": 0.7698477506637573,
+    "learning_rate": 2.97e-06,
+    "num_tokens": 1170174.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.853,
+    "epoch": 1.706,
     "step": 1706
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.40610402822494507,
-    "learning_rate": 2.97e-06,
-    "num_tokens": 582652.0,
+    "loss": 0.0048,
+    "grad_norm": 0.8261660933494568,
+    "learning_rate": 2.96e-06,
+    "num_tokens": 1170356.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.8535,
+    "epoch": 1.7069999999999999,
     "step": 1707
   },
   {
-    "loss": 0.0525,
-    "grad_norm": 1.0180531740188599,
-    "learning_rate": 2.96e-06,
-    "num_tokens": 583164.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.854,
+    "loss": 0.0336,
+    "grad_norm": 0.8241095542907715,
+    "learning_rate": 2.95e-06,
+    "num_tokens": 1170959.0,
+    "mean_token_accuracy": 0.9900166392326355,
+    "epoch": 1.708,
     "step": 1708
   },
   {
-    "loss": 0.0436,
-    "grad_norm": 1.2175544500350952,
-    "learning_rate": 2.95e-06,
-    "num_tokens": 583676.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.8545,
+    "loss": 0.0476,
+    "grad_norm": 0.7233520746231079,
+    "learning_rate": 2.9400000000000002e-06,
+    "num_tokens": 1171983.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.709,
     "step": 1709
   },
   {
-    "loss": 0.0601,
-    "grad_norm": 1.2007901668548584,
-    "learning_rate": 2.9400000000000002e-06,
-    "num_tokens": 584188.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.855,
+    "loss": 0.0462,
+    "grad_norm": 0.8334800004959106,
+    "learning_rate": 2.93e-06,
+    "num_tokens": 1172586.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.71,
     "step": 1710
   },
   {
-    "loss": 0.0566,
-    "grad_norm": 1.2265726327896118,
-    "learning_rate": 2.93e-06,
-    "num_tokens": 584700.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.8555,
+    "loss": 0.0545,
+    "grad_norm": 0.702858030796051,
+    "learning_rate": 2.92e-06,
+    "num_tokens": 1173610.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.7109999999999999,
     "step": 1711
   },
   {
-    "loss": 0.0556,
-    "grad_norm": 1.1947659254074097,
-    "learning_rate": 2.92e-06,
-    "num_tokens": 585212.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.856,
+    "loss": 0.0502,
+    "grad_norm": 0.9014273285865784,
+    "learning_rate": 2.91e-06,
+    "num_tokens": 1174634.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.712,
     "step": 1712
   },
   {
-    "loss": 0.0027,
-    "grad_norm": 0.464779794216156,
-    "learning_rate": 2.91e-06,
-    "num_tokens": 585303.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8565,
+    "loss": 0.05,
+    "grad_norm": 0.892711877822876,
+    "learning_rate": 2.9e-06,
+    "num_tokens": 1175237.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.713,
     "step": 1713
   },
   {
-    "loss": 0.0026,
-    "grad_norm": 0.4438534080982208,
-    "learning_rate": 2.9e-06,
-    "num_tokens": 585394.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.857,
+    "loss": 0.0548,
+    "grad_norm": 1.1328569650650024,
+    "learning_rate": 2.89e-06,
+    "num_tokens": 1175840.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.714,
     "step": 1714
   },
   {
-    "loss": 0.0593,
-    "grad_norm": 1.0972975492477417,
-    "learning_rate": 2.89e-06,
-    "num_tokens": 585906.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.8575,
+    "loss": 0.004,
+    "grad_norm": 0.7089178562164307,
+    "learning_rate": 2.88e-06,
+    "num_tokens": 1176022.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.7149999999999999,
     "step": 1715
   },
   {
-    "loss": 0.0835,
-    "grad_norm": 1.884253978729248,
-    "learning_rate": 2.88e-06,
-    "num_tokens": 586418.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.858,
+    "loss": 0.0443,
+    "grad_norm": 0.9402340054512024,
+    "learning_rate": 2.87e-06,
+    "num_tokens": 1176625.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.716,
     "step": 1716
   },
   {
-    "loss": 0.0633,
-    "grad_norm": 1.0084459781646729,
-    "learning_rate": 2.87e-06,
-    "num_tokens": 586930.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.8585,
+    "loss": 0.0356,
+    "grad_norm": 0.7975518703460693,
+    "learning_rate": 2.86e-06,
+    "num_tokens": 1177228.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.717,
     "step": 1717
   },
   {
-    "loss": 0.0558,
-    "grad_norm": 1.0302374362945557,
-    "learning_rate": 2.86e-06,
-    "num_tokens": 587442.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.859,
+    "loss": 0.0459,
+    "grad_norm": 0.7821065187454224,
+    "learning_rate": 2.85e-06,
+    "num_tokens": 1177831.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.718,
     "step": 1718
   },
   {
-    "loss": 0.0542,
-    "grad_norm": 0.9511706829071045,
-    "learning_rate": 2.85e-06,
-    "num_tokens": 587954.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.8595,
+    "loss": 0.0554,
+    "grad_norm": 1.1063010692596436,
+    "learning_rate": 2.84e-06,
+    "num_tokens": 1178855.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.7189999999999999,
     "step": 1719
   },
   {
-    "loss": 0.0506,
-    "grad_norm": 1.4875551462173462,
-    "learning_rate": 2.84e-06,
-    "num_tokens": 588466.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.86,
+    "loss": 0.0586,
+    "grad_norm": 0.9329798817634583,
+    "learning_rate": 2.83e-06,
+    "num_tokens": 1179879.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.72,
     "step": 1720
   },
   {
-    "loss": 0.0596,
-    "grad_norm": 1.1406636238098145,
-    "learning_rate": 2.83e-06,
-    "num_tokens": 588978.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.8605,
+    "loss": 0.0518,
+    "grad_norm": 0.8736408352851868,
+    "learning_rate": 2.82e-06,
+    "num_tokens": 1180903.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.721,
     "step": 1721
   },
   {
-    "loss": 0.0843,
-    "grad_norm": 1.663854718208313,
-    "learning_rate": 2.82e-06,
-    "num_tokens": 589490.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.861,
+    "loss": 0.0346,
+    "grad_norm": 0.8308598399162292,
+    "learning_rate": 2.8100000000000006e-06,
+    "num_tokens": 1181506.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.722,
     "step": 1722
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.5147997140884399,
-    "learning_rate": 2.8100000000000006e-06,
-    "num_tokens": 589581.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8615,
+    "loss": 0.0577,
+    "grad_norm": 1.303083062171936,
+    "learning_rate": 2.8000000000000003e-06,
+    "num_tokens": 1182109.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.7229999999999999,
     "step": 1723
   },
   {
-    "loss": 0.0862,
-    "grad_norm": 1.6565779447555542,
-    "learning_rate": 2.8000000000000003e-06,
-    "num_tokens": 590093.0,
-    "mean_token_accuracy": 0.9589040875434875,
-    "epoch": 0.862,
+    "loss": 0.0051,
+    "grad_norm": 0.873818576335907,
+    "learning_rate": 2.7900000000000004e-06,
+    "num_tokens": 1182291.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.724,
     "step": 1724
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.5479184985160828,
-    "learning_rate": 2.7900000000000004e-06,
-    "num_tokens": 590184.0,
+    "loss": 0.0054,
+    "grad_norm": 0.9341294765472412,
+    "learning_rate": 2.7800000000000005e-06,
+    "num_tokens": 1182473.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.8625,
+    "epoch": 1.725,
     "step": 1725
   },
   {
-    "loss": 0.0444,
-    "grad_norm": 1.354533076286316,
-    "learning_rate": 2.7800000000000005e-06,
-    "num_tokens": 590696.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.863,
+    "loss": 0.0471,
+    "grad_norm": 0.8815944790840149,
+    "learning_rate": 2.7700000000000006e-06,
+    "num_tokens": 1183076.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.726,
     "step": 1726
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.5383754968643188,
-    "learning_rate": 2.7700000000000006e-06,
-    "num_tokens": 590787.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8635,
+    "loss": 0.0457,
+    "grad_norm": 0.9239593148231506,
+    "learning_rate": 2.7600000000000003e-06,
+    "num_tokens": 1184100.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.7269999999999999,
     "step": 1727
   },
   {
-    "loss": 0.0405,
-    "grad_norm": 1.1847655773162842,
-    "learning_rate": 2.7600000000000003e-06,
-    "num_tokens": 591299.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.864,
+    "loss": 0.0048,
+    "grad_norm": 0.8393141031265259,
+    "learning_rate": 2.7500000000000004e-06,
+    "num_tokens": 1184282.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.728,
     "step": 1728
   },
   {
-    "loss": 0.0686,
-    "grad_norm": 1.8093054294586182,
-    "learning_rate": 2.7500000000000004e-06,
-    "num_tokens": 591811.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.8645,
+    "loss": 0.0463,
+    "grad_norm": 0.9265674352645874,
+    "learning_rate": 2.7400000000000004e-06,
+    "num_tokens": 1184885.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.729,
     "step": 1729
   },
   {
-    "loss": 0.0599,
-    "grad_norm": 0.9621073603630066,
-    "learning_rate": 2.7400000000000004e-06,
-    "num_tokens": 592323.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.865,
+    "loss": 0.033,
+    "grad_norm": 0.7537205815315247,
+    "learning_rate": 2.7300000000000005e-06,
+    "num_tokens": 1185488.0,
+    "mean_token_accuracy": 0.9883527159690857,
+    "epoch": 1.73,
     "step": 1730
   },
   {
-    "loss": 0.0037,
-    "grad_norm": 0.6532343626022339,
-    "learning_rate": 2.7300000000000005e-06,
-    "num_tokens": 592414.0,
+    "loss": 0.005,
+    "grad_norm": 0.8731275796890259,
+    "learning_rate": 2.7200000000000002e-06,
+    "num_tokens": 1185670.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.8655,
+    "epoch": 1.7309999999999999,
     "step": 1731
   },
   {
-    "loss": 0.062,
-    "grad_norm": 1.1963555812835693,
-    "learning_rate": 2.7200000000000002e-06,
-    "num_tokens": 592926.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.866,
+    "loss": 0.0621,
+    "grad_norm": 0.9686384201049805,
+    "learning_rate": 2.7100000000000003e-06,
+    "num_tokens": 1186694.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.732,
     "step": 1732
   },
   {
-    "loss": 0.0471,
-    "grad_norm": 1.2936190366744995,
-    "learning_rate": 2.7100000000000003e-06,
-    "num_tokens": 593438.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.8665,
+    "loss": 0.0308,
+    "grad_norm": 0.754749596118927,
+    "learning_rate": 2.7000000000000004e-06,
+    "num_tokens": 1187297.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.733,
     "step": 1733
   },
   {
-    "loss": 0.0039,
-    "grad_norm": 0.6896610856056213,
-    "learning_rate": 2.7000000000000004e-06,
-    "num_tokens": 593529.0,
+    "loss": 0.0046,
+    "grad_norm": 0.8170429468154907,
+    "learning_rate": 2.6900000000000005e-06,
+    "num_tokens": 1187479.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.867,
+    "epoch": 1.734,
     "step": 1734
   },
   {
-    "loss": 0.0035,
-    "grad_norm": 0.619045615196228,
-    "learning_rate": 2.6900000000000005e-06,
-    "num_tokens": 593620.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8675,
+    "loss": 0.0479,
+    "grad_norm": 0.8735800981521606,
+    "learning_rate": 2.68e-06,
+    "num_tokens": 1188503.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.7349999999999999,
     "step": 1735
   },
   {
-    "loss": 0.0037,
-    "grad_norm": 0.6495220065116882,
-    "learning_rate": 2.68e-06,
-    "num_tokens": 593711.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.868,
+    "loss": 0.0585,
+    "grad_norm": 1.3467590808868408,
+    "learning_rate": 2.6700000000000003e-06,
+    "num_tokens": 1189106.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.736,
     "step": 1736
   },
   {
-    "loss": 0.0033,
-    "grad_norm": 0.5850738286972046,
-    "learning_rate": 2.6700000000000003e-06,
-    "num_tokens": 593802.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8685,
+    "loss": 0.0533,
+    "grad_norm": 0.8141427636146545,
+    "learning_rate": 2.6600000000000004e-06,
+    "num_tokens": 1189709.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.737,
     "step": 1737
   },
   {
-    "loss": 0.0394,
-    "grad_norm": 1.1021217107772827,
-    "learning_rate": 2.6600000000000004e-06,
-    "num_tokens": 594314.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.869,
+    "loss": 0.0552,
+    "grad_norm": 0.8551588654518127,
+    "learning_rate": 2.6500000000000005e-06,
+    "num_tokens": 1190733.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 1.738,
     "step": 1738
   },
   {
-    "loss": 0.003,
-    "grad_norm": 0.5251200795173645,
-    "learning_rate": 2.6500000000000005e-06,
-    "num_tokens": 594405.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8695,
+    "loss": 0.0333,
+    "grad_norm": 0.7597099542617798,
+    "learning_rate": 2.64e-06,
+    "num_tokens": 1191336.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.7389999999999999,
     "step": 1739
   },
   {
-    "loss": 0.0029,
-    "grad_norm": 0.5125622153282166,
-    "learning_rate": 2.64e-06,
-    "num_tokens": 594496.0,
+    "loss": 0.0044,
+    "grad_norm": 0.7741936445236206,
+    "learning_rate": 2.6300000000000002e-06,
+    "num_tokens": 1191518.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.87,
+    "epoch": 1.74,
     "step": 1740
   },
   {
-    "loss": 0.0829,
-    "grad_norm": 1.8204774856567383,
-    "learning_rate": 2.6300000000000002e-06,
-    "num_tokens": 595008.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.8705,
+    "loss": 0.0582,
+    "grad_norm": 0.7289506196975708,
+    "learning_rate": 2.6200000000000003e-06,
+    "num_tokens": 1192542.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.741,
     "step": 1741
   },
   {
-    "loss": 0.0624,
-    "grad_norm": 1.3469654321670532,
-    "learning_rate": 2.6200000000000003e-06,
-    "num_tokens": 595520.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.871,
+    "loss": 0.0516,
+    "grad_norm": 1.0435099601745605,
+    "learning_rate": 2.6100000000000004e-06,
+    "num_tokens": 1193566.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.742,
     "step": 1742
   },
   {
-    "loss": 0.0587,
-    "grad_norm": 1.1263304948806763,
-    "learning_rate": 2.6100000000000004e-06,
-    "num_tokens": 596032.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.8715,
+    "loss": 0.0563,
+    "grad_norm": 0.9215458035469055,
+    "learning_rate": 2.6e-06,
+    "num_tokens": 1194590.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.7429999999999999,
     "step": 1743
   },
   {
-    "loss": 0.0791,
-    "grad_norm": 2.308769941329956,
-    "learning_rate": 2.6e-06,
-    "num_tokens": 596544.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.872,
+    "loss": 0.0383,
+    "grad_norm": 0.7490559816360474,
+    "learning_rate": 2.59e-06,
+    "num_tokens": 1195614.0,
+    "mean_token_accuracy": 0.9843444228172302,
+    "epoch": 1.744,
     "step": 1744
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.42390695214271545,
-    "learning_rate": 2.59e-06,
-    "num_tokens": 596635.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8725,
+    "loss": 0.0529,
+    "grad_norm": 0.8243502378463745,
+    "learning_rate": 2.5800000000000003e-06,
+    "num_tokens": 1196217.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.745,
     "step": 1745
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.4351828694343567,
-    "learning_rate": 2.5800000000000003e-06,
-    "num_tokens": 596726.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.873,
+    "loss": 0.0614,
+    "grad_norm": 0.9065500497817993,
+    "learning_rate": 2.5700000000000004e-06,
+    "num_tokens": 1197241.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.746,
     "step": 1746
   },
   {
-    "loss": 0.0025,
-    "grad_norm": 0.45117858052253723,
-    "learning_rate": 2.5700000000000004e-06,
-    "num_tokens": 596817.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8735,
+    "loss": 0.0316,
+    "grad_norm": 0.7572464346885681,
+    "learning_rate": 2.56e-06,
+    "num_tokens": 1197844.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.7469999999999999,
     "step": 1747
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.3449709117412567,
-    "learning_rate": 2.56e-06,
-    "num_tokens": 596908.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.874,
+    "loss": 0.048,
+    "grad_norm": 0.7955116033554077,
+    "learning_rate": 2.55e-06,
+    "num_tokens": 1198868.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.748,
     "step": 1748
   },
   {
-    "loss": 0.0552,
-    "grad_norm": 1.02012038230896,
-    "learning_rate": 2.55e-06,
-    "num_tokens": 597420.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.8745,
+    "loss": 0.0809,
+    "grad_norm": 2.686805248260498,
+    "learning_rate": 2.5400000000000002e-06,
+    "num_tokens": 1199471.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.749,
     "step": 1749
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.35598093271255493,
-    "learning_rate": 2.5400000000000002e-06,
-    "num_tokens": 597511.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.875,
+    "loss": 0.0316,
+    "grad_norm": 0.7225703597068787,
+    "learning_rate": 2.5300000000000003e-06,
+    "num_tokens": 1200074.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.75,
     "step": 1750
   },
   {
-    "loss": 0.0706,
-    "grad_norm": 1.9882680177688599,
-    "learning_rate": 2.5300000000000003e-06,
-    "num_tokens": 598023.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.8755,
+    "loss": 0.0336,
+    "grad_norm": 0.7847139239311218,
+    "learning_rate": 2.52e-06,
+    "num_tokens": 1200677.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.751,
     "step": 1751
   },
   {
-    "loss": 0.0585,
-    "grad_norm": 1.1153826713562012,
-    "learning_rate": 2.52e-06,
-    "num_tokens": 598535.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.876,
+    "loss": 0.0532,
+    "grad_norm": 0.905462384223938,
+    "learning_rate": 2.51e-06,
+    "num_tokens": 1201701.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.752,
     "step": 1752
   },
   {
-    "loss": 0.0606,
-    "grad_norm": 1.6919127702713013,
-    "learning_rate": 2.51e-06,
-    "num_tokens": 599047.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.8765,
+    "loss": 0.0058,
+    "grad_norm": 1.000243902206421,
+    "learning_rate": 2.5e-06,
+    "num_tokens": 1201883.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.7530000000000001,
     "step": 1753
   },
   {
-    "loss": 0.0381,
-    "grad_norm": 0.9558757543563843,
-    "learning_rate": 2.5e-06,
-    "num_tokens": 599559.0,
-    "mean_token_accuracy": 0.9863013625144958,
-    "epoch": 0.877,
+    "loss": 0.0437,
+    "grad_norm": 0.7757262587547302,
+    "learning_rate": 2.4900000000000003e-06,
+    "num_tokens": 1202486.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.754,
     "step": 1754
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3558536469936371,
-    "learning_rate": 2.4900000000000003e-06,
-    "num_tokens": 599650.0,
+    "loss": 0.0061,
+    "grad_norm": 1.0458347797393799,
+    "learning_rate": 2.4800000000000004e-06,
+    "num_tokens": 1202668.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.8775,
+    "epoch": 1.755,
     "step": 1755
   },
   {
-    "loss": 0.0522,
-    "grad_norm": 1.5039445161819458,
-    "learning_rate": 2.4800000000000004e-06,
-    "num_tokens": 600162.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.878,
-    "step": 1756
-  },
-  {
-    "loss": 0.0762,
-    "grad_norm": 1.8451253175735474,
+    "loss": 0.0504,
+    "grad_norm": 0.8413608074188232,
     "learning_rate": 2.47e-06,
-    "num_tokens": 600674.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.8785,
-    "step": 1757
+    "num_tokens": 1203692.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.756,
+    "step": 1756
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3580801486968994,
+    "loss": 0.0522,
+    "grad_norm": 1.0522884130477905,
     "learning_rate": 2.46e-06,
-    "num_tokens": 600765.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.879,
-    "step": 1758
+    "num_tokens": 1204295.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.7570000000000001,
+    "step": 1757
   },
   {
-    "loss": 0.0596,
-    "grad_norm": 1.0082149505615234,
+    "loss": 0.0393,
+    "grad_norm": 0.6745458841323853,
     "learning_rate": 2.4500000000000003e-06,
-    "num_tokens": 601277.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.8795,
-    "step": 1759
+    "num_tokens": 1205319.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 1.758,
+    "step": 1758
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.31669387221336365,
+    "loss": 0.0585,
+    "grad_norm": 0.7667430639266968,
     "learning_rate": 2.4400000000000004e-06,
-    "num_tokens": 601368.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.88,
-    "step": 1760
+    "num_tokens": 1206343.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.759,
+    "step": 1759
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3432970345020294,
+    "loss": 0.0505,
+    "grad_norm": 0.9792746901512146,
     "learning_rate": 2.43e-06,
-    "num_tokens": 601459.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8805,
-    "step": 1761
+    "num_tokens": 1206946.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.76,
+    "step": 1760
   },
   {
-    "loss": 0.0574,
-    "grad_norm": 1.3162227869033813,
+    "loss": 0.0551,
+    "grad_norm": 0.7983967661857605,
     "learning_rate": 2.42e-06,
-    "num_tokens": 601971.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.881,
-    "step": 1762
+    "num_tokens": 1207970.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.7610000000000001,
+    "step": 1761
   },
   {
-    "loss": 0.0435,
-    "grad_norm": 1.0670703649520874,
+    "loss": 0.0564,
+    "grad_norm": 0.7570465207099915,
     "learning_rate": 2.4100000000000002e-06,
-    "num_tokens": 602483.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.8815,
-    "step": 1763
+    "num_tokens": 1208994.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.762,
+    "step": 1762
   },
   {
-    "loss": 0.0461,
-    "grad_norm": 1.2668665647506714,
+    "loss": 0.043,
+    "grad_norm": 0.814797043800354,
     "learning_rate": 2.4000000000000003e-06,
-    "num_tokens": 602995.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.882,
-    "step": 1764
+    "num_tokens": 1209597.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.763,
+    "step": 1763
   },
   {
-    "loss": 0.0594,
-    "grad_norm": 1.4527745246887207,
+    "loss": 0.0488,
+    "grad_norm": 0.7885193228721619,
     "learning_rate": 2.39e-06,
-    "num_tokens": 603507.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.8825,
-    "step": 1765
+    "num_tokens": 1210621.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.764,
+    "step": 1764
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.3514978885650635,
+    "loss": 0.0344,
+    "grad_norm": 0.818915843963623,
     "learning_rate": 2.38e-06,
-    "num_tokens": 603598.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.883,
-    "step": 1766
+    "num_tokens": 1211224.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.7650000000000001,
+    "step": 1765
   },
   {
-    "loss": 0.0729,
-    "grad_norm": 2.0161454677581787,
+    "loss": 0.0604,
+    "grad_norm": 0.9282973408699036,
     "learning_rate": 2.37e-06,
-    "num_tokens": 604110.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.8835,
-    "step": 1767
+    "num_tokens": 1212248.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.766,
+    "step": 1766
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.38664510846138,
+    "loss": 0.0404,
+    "grad_norm": 0.7900825142860413,
     "learning_rate": 2.3600000000000003e-06,
-    "num_tokens": 604201.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.884,
-    "step": 1768
+    "num_tokens": 1212851.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.767,
+    "step": 1767
   },
   {
-    "loss": 0.0353,
-    "grad_norm": 0.9888522624969482,
+    "loss": 0.031,
+    "grad_norm": 0.7015290260314941,
     "learning_rate": 2.35e-06,
-    "num_tokens": 604713.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.8845,
-    "step": 1769
+    "num_tokens": 1213454.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.768,
+    "step": 1768
   },
   {
-    "loss": 0.0816,
-    "grad_norm": 1.6845252513885498,
+    "loss": 0.0364,
+    "grad_norm": 0.9064289927482605,
     "learning_rate": 2.3400000000000005e-06,
-    "num_tokens": 605225.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.885,
-    "step": 1770
+    "num_tokens": 1214057.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.7690000000000001,
+    "step": 1769
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.34472399950027466,
+    "loss": 0.0466,
+    "grad_norm": 0.9048400521278381,
     "learning_rate": 2.33e-06,
-    "num_tokens": 605316.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8855,
-    "step": 1771
+    "num_tokens": 1215081.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.77,
+    "step": 1770
   },
   {
-    "loss": 0.0612,
-    "grad_norm": 1.5795350074768066,
+    "loss": 0.0301,
+    "grad_norm": 0.7496972680091858,
     "learning_rate": 2.3200000000000002e-06,
-    "num_tokens": 605828.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.886,
-    "step": 1772
+    "num_tokens": 1215684.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.771,
+    "step": 1771
   },
   {
-    "loss": 0.036,
-    "grad_norm": 1.0923341512680054,
+    "loss": 0.0493,
+    "grad_norm": 0.6115801930427551,
     "learning_rate": 2.3100000000000003e-06,
-    "num_tokens": 606340.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.8865,
-    "step": 1773
+    "num_tokens": 1216708.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.772,
+    "step": 1772
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.36445900797843933,
+    "loss": 0.0304,
+    "grad_norm": 0.7350578308105469,
     "learning_rate": 2.3000000000000004e-06,
-    "num_tokens": 606431.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.887,
-    "step": 1774
+    "num_tokens": 1217311.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.7730000000000001,
+    "step": 1773
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.36632096767425537,
+    "loss": 0.0472,
+    "grad_norm": 1.045663833618164,
     "learning_rate": 2.29e-06,
-    "num_tokens": 606522.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8875,
-    "step": 1775
+    "num_tokens": 1217914.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.774,
+    "step": 1774
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.4193936884403229,
+    "loss": 0.0551,
+    "grad_norm": 1.1708678007125854,
     "learning_rate": 2.28e-06,
-    "num_tokens": 606613.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.888,
-    "step": 1776
+    "num_tokens": 1218517.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.775,
+    "step": 1775
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.36693835258483887,
+    "loss": 0.0644,
+    "grad_norm": 1.0152207612991333,
     "learning_rate": 2.2700000000000003e-06,
-    "num_tokens": 606704.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8885,
-    "step": 1777
+    "num_tokens": 1219541.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.776,
+    "step": 1776
   },
   {
-    "loss": 0.0695,
-    "grad_norm": 1.6587837934494019,
+    "loss": 0.0495,
+    "grad_norm": 0.9661046266555786,
     "learning_rate": 2.2600000000000004e-06,
-    "num_tokens": 607216.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.889,
-    "step": 1778
+    "num_tokens": 1220144.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.7770000000000001,
+    "step": 1777
   },
   {
-    "loss": 0.0439,
-    "grad_norm": 1.2197368144989014,
+    "loss": 0.0396,
+    "grad_norm": 0.8248231410980225,
     "learning_rate": 2.25e-06,
-    "num_tokens": 607728.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.8895,
-    "step": 1779
+    "num_tokens": 1221168.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 1.778,
+    "step": 1778
   },
   {
-    "loss": 0.0737,
-    "grad_norm": 1.8300983905792236,
+    "loss": 0.0572,
+    "grad_norm": 0.741680920124054,
     "learning_rate": 2.24e-06,
-    "num_tokens": 608240.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.89,
-    "step": 1780
+    "num_tokens": 1222192.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.779,
+    "step": 1779
   },
   {
-    "loss": 0.0443,
-    "grad_norm": 1.1544647216796875,
+    "loss": 0.0445,
+    "grad_norm": 0.7325671911239624,
     "learning_rate": 2.2300000000000002e-06,
-    "num_tokens": 608752.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.8905,
-    "step": 1781
+    "num_tokens": 1223216.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.78,
+    "step": 1780
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.40331411361694336,
+    "loss": 0.0317,
+    "grad_norm": 0.7711221575737,
     "learning_rate": 2.2200000000000003e-06,
-    "num_tokens": 608843.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.891,
-    "step": 1782
+    "num_tokens": 1223819.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.7810000000000001,
+    "step": 1781
   },
   {
-    "loss": 0.0024,
-    "grad_norm": 0.4283469021320343,
+    "loss": 0.0527,
+    "grad_norm": 0.9079440236091614,
     "learning_rate": 2.21e-06,
-    "num_tokens": 608934.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8915,
-    "step": 1783
+    "num_tokens": 1224422.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 1.782,
+    "step": 1782
   },
   {
-    "loss": 0.0023,
-    "grad_norm": 0.38760119676589966,
+    "loss": 0.0108,
+    "grad_norm": 1.6502025127410889,
     "learning_rate": 2.2e-06,
-    "num_tokens": 609025.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.892,
-    "step": 1784
+    "num_tokens": 1224604.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.783,
+    "step": 1783
   },
   {
-    "loss": 0.0768,
-    "grad_norm": 2.4320685863494873,
+    "loss": 0.0537,
+    "grad_norm": 1.1283652782440186,
     "learning_rate": 2.19e-06,
-    "num_tokens": 609537.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.8925,
-    "step": 1785
+    "num_tokens": 1225207.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.784,
+    "step": 1784
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.3753429353237152,
+    "loss": 0.0104,
+    "grad_norm": 1.5997681617736816,
     "learning_rate": 2.1800000000000003e-06,
-    "num_tokens": 609628.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.893,
-    "step": 1786
+    "num_tokens": 1225389.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.7850000000000001,
+    "step": 1785
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.37054023146629333,
+    "loss": 0.0365,
+    "grad_norm": 0.6672436594963074,
     "learning_rate": 2.17e-06,
-    "num_tokens": 609719.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8935,
-    "step": 1787
+    "num_tokens": 1226413.0,
+    "mean_token_accuracy": 0.9863013625144958,
+    "epoch": 1.786,
+    "step": 1786
   },
   {
-    "loss": 0.063,
-    "grad_norm": 1.1455004215240479,
+    "loss": 0.0506,
+    "grad_norm": 0.9749234318733215,
     "learning_rate": 2.16e-06,
-    "num_tokens": 610231.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.894,
-    "step": 1788
+    "num_tokens": 1227016.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.787,
+    "step": 1787
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.3473651707172394,
+    "loss": 0.0491,
+    "grad_norm": 0.6571372747421265,
     "learning_rate": 2.15e-06,
-    "num_tokens": 610322.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8945,
-    "step": 1789
+    "num_tokens": 1228040.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.788,
+    "step": 1788
   },
   {
-    "loss": 0.0613,
-    "grad_norm": 1.3616305589675903,
+    "loss": 0.067,
+    "grad_norm": 1.2986317873001099,
     "learning_rate": 2.1400000000000003e-06,
-    "num_tokens": 610834.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.895,
-    "step": 1790
+    "num_tokens": 1229064.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 1.7890000000000001,
+    "step": 1789
   },
   {
-    "loss": 0.0728,
-    "grad_norm": 1.4589122533798218,
+    "loss": 0.053,
+    "grad_norm": 1.0465713739395142,
     "learning_rate": 2.13e-06,
-    "num_tokens": 611346.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.8955,
-    "step": 1791
+    "num_tokens": 1229667.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.79,
+    "step": 1790
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3479214906692505,
+    "loss": 0.053,
+    "grad_norm": 0.8406110405921936,
     "learning_rate": 2.12e-06,
-    "num_tokens": 611437.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.896,
-    "step": 1792
+    "num_tokens": 1230691.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.791,
+    "step": 1791
   },
   {
-    "loss": 0.0652,
-    "grad_norm": 1.3161977529525757,
+    "loss": 0.0093,
+    "grad_norm": 1.4866935014724731,
     "learning_rate": 2.11e-06,
-    "num_tokens": 611949.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.8965,
-    "step": 1793
+    "num_tokens": 1230873.0,
+    "mean_token_accuracy": 0.9888888597488403,
+    "epoch": 1.792,
+    "step": 1792
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.30886292457580566,
+    "loss": 0.0611,
+    "grad_norm": 0.9989224076271057,
     "learning_rate": 2.1000000000000002e-06,
-    "num_tokens": 612040.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.897,
-    "step": 1794
+    "num_tokens": 1231897.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.7930000000000001,
+    "step": 1793
   },
   {
-    "loss": 0.0592,
-    "grad_norm": 1.1527003049850464,
+    "loss": 0.0448,
+    "grad_norm": 0.6616271734237671,
     "learning_rate": 2.09e-06,
-    "num_tokens": 612552.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.8975,
-    "step": 1795
+    "num_tokens": 1232921.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.794,
+    "step": 1794
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.32701927423477173,
+    "loss": 0.0475,
+    "grad_norm": 0.9157487750053406,
     "learning_rate": 2.08e-06,
-    "num_tokens": 612643.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.898,
-    "step": 1796
+    "num_tokens": 1233524.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.795,
+    "step": 1795
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.31851011514663696,
+    "loss": 0.0084,
+    "grad_norm": 1.3727267980575562,
     "learning_rate": 2.07e-06,
-    "num_tokens": 612734.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.8985,
-    "step": 1797
+    "num_tokens": 1233706.0,
+    "mean_token_accuracy": 0.9944444298744202,
+    "epoch": 1.796,
+    "step": 1796
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.3128160238265991,
+    "loss": 0.0488,
+    "grad_norm": 1.0055174827575684,
     "learning_rate": 2.06e-06,
-    "num_tokens": 612825.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.899,
-    "step": 1798
+    "num_tokens": 1234309.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.7970000000000002,
+    "step": 1797
   },
   {
-    "loss": 0.0609,
-    "grad_norm": 1.4082930088043213,
+    "loss": 0.0566,
+    "grad_norm": 0.8666424751281738,
     "learning_rate": 2.05e-06,
-    "num_tokens": 613337.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.8995,
-    "step": 1799
+    "num_tokens": 1235333.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.798,
+    "step": 1798
   },
   {
-    "loss": 0.0367,
-    "grad_norm": 1.014041781425476,
+    "loss": 0.0531,
+    "grad_norm": 0.8747699856758118,
     "learning_rate": 2.04e-06,
-    "num_tokens": 613849.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.9,
-    "step": 1800
+    "num_tokens": 1236357.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.799,
+    "step": 1799
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.31275689601898193,
+    "loss": 0.0358,
+    "grad_norm": 0.8999316692352295,
     "learning_rate": 2.0300000000000005e-06,
-    "num_tokens": 613940.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9005,
-    "step": 1801
+    "num_tokens": 1236960.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.8,
+    "step": 1800
   },
   {
-    "loss": 0.0651,
-    "grad_norm": 1.7855079174041748,
+    "loss": 0.0472,
+    "grad_norm": 1.0433317422866821,
     "learning_rate": 2.02e-06,
-    "num_tokens": 614452.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.901,
-    "step": 1802
+    "num_tokens": 1237563.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.8010000000000002,
+    "step": 1801
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.3344590663909912,
+    "loss": 0.0359,
+    "grad_norm": 0.8629103899002075,
     "learning_rate": 2.0100000000000002e-06,
-    "num_tokens": 614543.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9015,
-    "step": 1803
+    "num_tokens": 1238166.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.802,
+    "step": 1802
   },
   {
-    "loss": 0.0647,
-    "grad_norm": 1.4787598848342896,
+    "loss": 0.0546,
+    "grad_norm": 1.0378329753875732,
     "learning_rate": 2.0000000000000003e-06,
-    "num_tokens": 615055.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.902,
-    "step": 1804
+    "num_tokens": 1238769.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.803,
+    "step": 1803
   },
   {
-    "loss": 0.0578,
-    "grad_norm": 1.2822742462158203,
+    "loss": 0.032,
+    "grad_norm": 0.7883849143981934,
     "learning_rate": 1.9900000000000004e-06,
-    "num_tokens": 615567.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.9025,
-    "step": 1805
+    "num_tokens": 1239372.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.804,
+    "step": 1804
   },
   {
-    "loss": 0.0431,
-    "grad_norm": 1.270432472229004,
+    "loss": 0.0287,
+    "grad_norm": 0.735058069229126,
     "learning_rate": 1.98e-06,
-    "num_tokens": 616079.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.903,
-    "step": 1806
+    "num_tokens": 1239975.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.8050000000000002,
+    "step": 1805
   },
   {
-    "loss": 0.0629,
-    "grad_norm": 1.4008212089538574,
+    "loss": 0.0388,
+    "grad_norm": 0.8934848308563232,
     "learning_rate": 1.97e-06,
-    "num_tokens": 616591.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.9035,
-    "step": 1807
+    "num_tokens": 1240578.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.806,
+    "step": 1806
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.29254984855651855,
+    "loss": 0.0495,
+    "grad_norm": 1.1365348100662231,
     "learning_rate": 1.9600000000000003e-06,
-    "num_tokens": 616682.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.904,
-    "step": 1808
+    "num_tokens": 1241181.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.807,
+    "step": 1807
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.33816665410995483,
+    "loss": 0.0591,
+    "grad_norm": 0.8974589705467224,
     "learning_rate": 1.9500000000000004e-06,
-    "num_tokens": 616773.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9045,
-    "step": 1809
+    "num_tokens": 1242205.0,
+    "mean_token_accuracy": 0.9647749662399292,
+    "epoch": 1.808,
+    "step": 1808
   },
   {
-    "loss": 0.0407,
-    "grad_norm": 1.2000517845153809,
+    "loss": 0.035,
+    "grad_norm": 0.7894022464752197,
     "learning_rate": 1.94e-06,
-    "num_tokens": 617285.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.905,
-    "step": 1810
+    "num_tokens": 1242808.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.8090000000000002,
+    "step": 1809
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.36089253425598145,
+    "loss": 0.0923,
+    "grad_norm": 3.20685076713562,
     "learning_rate": 1.93e-06,
-    "num_tokens": 617376.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9055,
-    "step": 1811
+    "num_tokens": 1243411.0,
+    "mean_token_accuracy": 0.960066556930542,
+    "epoch": 1.81,
+    "step": 1810
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.3009200990200043,
+    "loss": 0.048,
+    "grad_norm": 0.9050451517105103,
     "learning_rate": 1.9200000000000003e-06,
-    "num_tokens": 617467.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.906,
-    "step": 1812
+    "num_tokens": 1244014.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.811,
+    "step": 1811
   },
   {
-    "loss": 0.0681,
-    "grad_norm": 1.279045581817627,
+    "loss": 0.0519,
+    "grad_norm": 1.2017446756362915,
     "learning_rate": 1.9100000000000003e-06,
-    "num_tokens": 617979.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.9065,
-    "step": 1813
+    "num_tokens": 1245038.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.812,
+    "step": 1812
   },
   {
-    "loss": 0.041,
-    "grad_norm": 0.9949601292610168,
+    "loss": 0.0525,
+    "grad_norm": 0.616727888584137,
     "learning_rate": 1.9000000000000002e-06,
-    "num_tokens": 618491.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.907,
-    "step": 1814
+    "num_tokens": 1246062.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.813,
+    "step": 1813
   },
   {
-    "loss": 0.0436,
-    "grad_norm": 1.0469834804534912,
+    "loss": 0.0459,
+    "grad_norm": 0.8932090401649475,
     "learning_rate": 1.8900000000000001e-06,
-    "num_tokens": 619003.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.9075,
-    "step": 1815
+    "num_tokens": 1247086.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.814,
+    "step": 1814
   },
   {
-    "loss": 0.07,
-    "grad_norm": 1.9559322595596313,
+    "loss": 0.0083,
+    "grad_norm": 1.3748656511306763,
     "learning_rate": 1.8800000000000002e-06,
-    "num_tokens": 619515.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.908,
-    "step": 1816
+    "num_tokens": 1247268.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.815,
+    "step": 1815
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.34342578053474426,
+    "loss": 0.0622,
+    "grad_norm": 0.8398600816726685,
     "learning_rate": 1.87e-06,
-    "num_tokens": 619606.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9085,
-    "step": 1817
+    "num_tokens": 1248292.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 1.8159999999999998,
+    "step": 1816
   },
   {
-    "loss": 0.0878,
-    "grad_norm": 1.9412786960601807,
+    "loss": 0.0454,
+    "grad_norm": 0.941429078578949,
     "learning_rate": 1.8600000000000002e-06,
-    "num_tokens": 620118.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.909,
-    "step": 1818
+    "num_tokens": 1248895.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.817,
+    "step": 1817
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.32897070050239563,
+    "loss": 0.0083,
+    "grad_norm": 1.3848148584365845,
     "learning_rate": 1.85e-06,
-    "num_tokens": 620209.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9095,
-    "step": 1819
+    "num_tokens": 1249077.0,
+    "mean_token_accuracy": 0.9944444298744202,
+    "epoch": 1.818,
+    "step": 1818
   },
   {
-    "loss": 0.0558,
-    "grad_norm": 1.230363368988037,
+    "loss": 0.0342,
+    "grad_norm": 0.9025738835334778,
     "learning_rate": 1.8400000000000002e-06,
-    "num_tokens": 620721.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.91,
-    "step": 1820
+    "num_tokens": 1249680.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.819,
+    "step": 1819
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.36400625109672546,
+    "loss": 0.0355,
+    "grad_norm": 0.6912959814071655,
     "learning_rate": 1.83e-06,
-    "num_tokens": 620812.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9105,
-    "step": 1821
+    "num_tokens": 1250704.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 1.8199999999999998,
+    "step": 1820
   },
   {
-    "loss": 0.0836,
-    "grad_norm": 2.0716917514801025,
+    "loss": 0.0515,
+    "grad_norm": 0.7383629679679871,
     "learning_rate": 1.8200000000000002e-06,
-    "num_tokens": 621324.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.911,
-    "step": 1822
+    "num_tokens": 1251728.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.821,
+    "step": 1821
   },
   {
-    "loss": 0.0621,
-    "grad_norm": 1.304250717163086,
+    "loss": 0.0454,
+    "grad_norm": 0.6471507549285889,
     "learning_rate": 1.81e-06,
-    "num_tokens": 621836.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.9115,
-    "step": 1823
+    "num_tokens": 1252752.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.822,
+    "step": 1822
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.36326804757118225,
+    "loss": 0.0457,
+    "grad_norm": 0.8248931169509888,
     "learning_rate": 1.8000000000000001e-06,
-    "num_tokens": 621927.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.912,
-    "step": 1824
+    "num_tokens": 1253355.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.823,
+    "step": 1823
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.35329553484916687,
+    "loss": 0.0519,
+    "grad_norm": 0.949046790599823,
     "learning_rate": 1.79e-06,
-    "num_tokens": 622018.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9125,
-    "step": 1825
+    "num_tokens": 1254379.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.8239999999999998,
+    "step": 1824
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.37259048223495483,
+    "loss": 0.0581,
+    "grad_norm": 1.1707154512405396,
     "learning_rate": 1.7800000000000001e-06,
-    "num_tokens": 622109.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.913,
-    "step": 1826
+    "num_tokens": 1254982.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.825,
+    "step": 1825
   },
   {
-    "loss": 0.0427,
-    "grad_norm": 1.4227620363235474,
+    "loss": 0.0483,
+    "grad_norm": 0.7052024006843567,
     "learning_rate": 1.77e-06,
-    "num_tokens": 622621.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.9135,
-    "step": 1827
+    "num_tokens": 1256006.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.826,
+    "step": 1826
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.3209492564201355,
+    "loss": 0.0443,
+    "grad_norm": 0.8777363896369934,
     "learning_rate": 1.76e-06,
-    "num_tokens": 622712.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.914,
-    "step": 1828
+    "num_tokens": 1256609.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.827,
+    "step": 1827
   },
   {
-    "loss": 0.0461,
-    "grad_norm": 1.0381195545196533,
+    "loss": 0.0083,
+    "grad_norm": 1.3815189599990845,
     "learning_rate": 1.75e-06,
-    "num_tokens": 623224.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.9145,
-    "step": 1829
+    "num_tokens": 1256791.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.8279999999999998,
+    "step": 1828
   },
   {
-    "loss": 0.042,
-    "grad_norm": 1.2007672786712646,
+    "loss": 0.0377,
+    "grad_norm": 0.7194532155990601,
     "learning_rate": 1.74e-06,
-    "num_tokens": 623736.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.915,
-    "step": 1830
+    "num_tokens": 1257815.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 1.829,
+    "step": 1829
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.36294040083885193,
+    "loss": 0.046,
+    "grad_norm": 0.9212157130241394,
     "learning_rate": 1.73e-06,
-    "num_tokens": 623827.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9155,
-    "step": 1831
+    "num_tokens": 1258839.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.83,
+    "step": 1830
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.36834561824798584,
+    "loss": 0.0528,
+    "grad_norm": 0.8202394247055054,
     "learning_rate": 1.72e-06,
-    "num_tokens": 623918.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.916,
-    "step": 1832
+    "num_tokens": 1259863.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.831,
+    "step": 1831
   },
   {
-    "loss": 0.0571,
-    "grad_norm": 1.3143699169158936,
+    "loss": 0.032,
+    "grad_norm": 0.8170984983444214,
     "learning_rate": 1.7100000000000004e-06,
-    "num_tokens": 624430.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.9165,
-    "step": 1833
+    "num_tokens": 1260466.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.8319999999999999,
+    "step": 1832
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.3313964307308197,
+    "loss": 0.0567,
+    "grad_norm": 0.76454758644104,
     "learning_rate": 1.7000000000000002e-06,
-    "num_tokens": 624521.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.917,
-    "step": 1834
+    "num_tokens": 1261490.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.833,
+    "step": 1833
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.357883095741272,
+    "loss": 0.0444,
+    "grad_norm": 0.8616076111793518,
     "learning_rate": 1.6900000000000003e-06,
-    "num_tokens": 624612.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9175,
-    "step": 1835
+    "num_tokens": 1262093.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.834,
+    "step": 1834
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3507683277130127,
+    "loss": 0.0598,
+    "grad_norm": 1.2619731426239014,
     "learning_rate": 1.6800000000000002e-06,
-    "num_tokens": 624703.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.918,
-    "step": 1836
+    "num_tokens": 1262696.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 1.835,
+    "step": 1835
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.32915839552879333,
+    "loss": 0.0579,
+    "grad_norm": 0.8180704116821289,
     "learning_rate": 1.6700000000000003e-06,
-    "num_tokens": 624794.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9185,
-    "step": 1837
+    "num_tokens": 1263720.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 1.8359999999999999,
+    "step": 1836
   },
   {
-    "loss": 0.055,
-    "grad_norm": 1.478965163230896,
+    "loss": 0.0443,
+    "grad_norm": 0.8013731241226196,
     "learning_rate": 1.6600000000000002e-06,
-    "num_tokens": 625306.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.919,
-    "step": 1838
+    "num_tokens": 1264323.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.837,
+    "step": 1837
   },
   {
-    "loss": 0.0563,
-    "grad_norm": 1.0098392963409424,
+    "loss": 0.0459,
+    "grad_norm": 0.6007160544395447,
     "learning_rate": 1.6500000000000003e-06,
-    "num_tokens": 625818.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.9195,
-    "step": 1839
+    "num_tokens": 1265347.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.838,
+    "step": 1838
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.30924662947654724,
+    "loss": 0.0081,
+    "grad_norm": 1.3501945734024048,
     "learning_rate": 1.6400000000000002e-06,
-    "num_tokens": 625909.0,
+    "num_tokens": 1265529.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.92,
-    "step": 1840
+    "epoch": 1.839,
+    "step": 1839
   },
   {
-    "loss": 0.0662,
-    "grad_norm": 1.276971459388733,
+    "loss": 0.0577,
+    "grad_norm": 1.0602728128433228,
     "learning_rate": 1.6300000000000003e-06,
-    "num_tokens": 626421.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.9205,
-    "step": 1841
+    "num_tokens": 1266132.0,
+    "mean_token_accuracy": 0.9683859944343567,
+    "epoch": 1.8399999999999999,
+    "step": 1840
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.3022649586200714,
+    "loss": 0.0316,
+    "grad_norm": 0.799614429473877,
     "learning_rate": 1.6200000000000002e-06,
-    "num_tokens": 626512.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.921,
-    "step": 1842
+    "num_tokens": 1266735.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.841,
+    "step": 1841
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.32340654730796814,
+    "loss": 0.0465,
+    "grad_norm": 1.0291104316711426,
     "learning_rate": 1.6100000000000003e-06,
-    "num_tokens": 626603.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9215,
-    "step": 1843
+    "num_tokens": 1267338.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.842,
+    "step": 1842
   },
   {
-    "loss": 0.038,
-    "grad_norm": 1.0054205656051636,
+    "loss": 0.0415,
+    "grad_norm": 0.9690372347831726,
     "learning_rate": 1.6000000000000001e-06,
-    "num_tokens": 627115.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.922,
-    "step": 1844
+    "num_tokens": 1267941.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.843,
+    "step": 1843
   },
   {
-    "loss": 0.0445,
-    "grad_norm": 1.2428219318389893,
+    "loss": 0.0505,
+    "grad_norm": 0.7197061777114868,
     "learning_rate": 1.5900000000000002e-06,
-    "num_tokens": 627627.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.9225,
-    "step": 1845
+    "num_tokens": 1268965.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.8439999999999999,
+    "step": 1844
   },
   {
-    "loss": 0.0531,
-    "grad_norm": 1.1613452434539795,
+    "loss": 0.0351,
+    "grad_norm": 0.7125798463821411,
     "learning_rate": 1.5800000000000001e-06,
-    "num_tokens": 628139.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.923,
-    "step": 1846
+    "num_tokens": 1269989.0,
+    "mean_token_accuracy": 0.985322892665863,
+    "epoch": 1.845,
+    "step": 1845
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.2842133641242981,
+    "loss": 0.0087,
+    "grad_norm": 1.4389352798461914,
     "learning_rate": 1.5700000000000002e-06,
-    "num_tokens": 628230.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9235,
-    "step": 1847
+    "num_tokens": 1270171.0,
+    "mean_token_accuracy": 0.9944444298744202,
+    "epoch": 1.846,
+    "step": 1846
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.3061327040195465,
+    "loss": 0.008,
+    "grad_norm": 1.326840877532959,
     "learning_rate": 1.56e-06,
-    "num_tokens": 628321.0,
+    "num_tokens": 1270353.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.924,
-    "step": 1848
+    "epoch": 1.847,
+    "step": 1847
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.31931373476982117,
+    "loss": 0.0489,
+    "grad_norm": 0.9269915819168091,
     "learning_rate": 1.5500000000000002e-06,
-    "num_tokens": 628412.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9245,
-    "step": 1849
+    "num_tokens": 1270956.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.8479999999999999,
+    "step": 1848
   },
   {
-    "loss": 0.0689,
-    "grad_norm": 1.777726650238037,
+    "loss": 0.0564,
+    "grad_norm": 0.826057493686676,
     "learning_rate": 1.54e-06,
-    "num_tokens": 628924.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.925,
-    "step": 1850
+    "num_tokens": 1271980.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.849,
+    "step": 1849
   },
   {
-    "loss": 0.0626,
-    "grad_norm": 1.0839914083480835,
+    "loss": 0.0346,
+    "grad_norm": 0.8716343641281128,
     "learning_rate": 1.5300000000000002e-06,
-    "num_tokens": 629436.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.9255,
-    "step": 1851
+    "num_tokens": 1272583.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.85,
+    "step": 1850
   },
   {
-    "loss": 0.0621,
-    "grad_norm": 1.0777654647827148,
+    "loss": 0.0073,
+    "grad_norm": 1.2124102115631104,
     "learning_rate": 1.52e-06,
-    "num_tokens": 629948.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.926,
-    "step": 1852
+    "num_tokens": 1272765.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.851,
+    "step": 1851
   },
   {
-    "loss": 0.0617,
-    "grad_norm": 1.3572564125061035,
+    "loss": 0.049,
+    "grad_norm": 0.6428321599960327,
     "learning_rate": 1.5100000000000002e-06,
-    "num_tokens": 630460.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.9265,
-    "step": 1853
+    "num_tokens": 1273789.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.8519999999999999,
+    "step": 1852
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.31615281105041504,
+    "loss": 0.0071,
+    "grad_norm": 1.2075852155685425,
     "learning_rate": 1.5e-06,
-    "num_tokens": 630551.0,
+    "num_tokens": 1273971.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.927,
-    "step": 1854
+    "epoch": 1.853,
+    "step": 1853
   },
   {
-    "loss": 0.0584,
-    "grad_norm": 1.4089421033859253,
+    "loss": 0.0529,
+    "grad_norm": 1.0347280502319336,
     "learning_rate": 1.4900000000000001e-06,
-    "num_tokens": 631063.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.9275,
-    "step": 1855
+    "num_tokens": 1274995.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.854,
+    "step": 1854
   },
   {
-    "loss": 0.0376,
-    "grad_norm": 0.9989500641822815,
+    "loss": 0.0307,
+    "grad_norm": 0.7036189436912537,
     "learning_rate": 1.48e-06,
-    "num_tokens": 631575.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.928,
-    "step": 1856
+    "num_tokens": 1275598.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.855,
+    "step": 1855
   },
   {
-    "loss": 0.0564,
-    "grad_norm": 1.4619941711425781,
+    "loss": 0.0407,
+    "grad_norm": 1.0765986442565918,
     "learning_rate": 1.4700000000000001e-06,
-    "num_tokens": 632087.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.9285,
-    "step": 1857
+    "num_tokens": 1276201.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.8559999999999999,
+    "step": 1856
   },
   {
-    "loss": 0.0017,
-    "grad_norm": 0.27881649136543274,
+    "loss": 0.0513,
+    "grad_norm": 0.8049939274787903,
     "learning_rate": 1.46e-06,
-    "num_tokens": 632178.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.929,
-    "step": 1858
+    "num_tokens": 1277225.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.857,
+    "step": 1857
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3606109619140625,
+    "loss": 0.0516,
+    "grad_norm": 0.8225579857826233,
     "learning_rate": 1.45e-06,
-    "num_tokens": 632269.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9295,
-    "step": 1859
+    "num_tokens": 1277828.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.858,
+    "step": 1858
   },
   {
-    "loss": 0.0018,
-    "grad_norm": 0.3089398145675659,
+    "loss": 0.0069,
+    "grad_norm": 1.1663427352905273,
     "learning_rate": 1.44e-06,
-    "num_tokens": 632360.0,
+    "num_tokens": 1278010.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.93,
-    "step": 1860
+    "epoch": 1.859,
+    "step": 1859
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.35239994525909424,
+    "loss": 0.0549,
+    "grad_norm": 0.9747959971427917,
     "learning_rate": 1.43e-06,
-    "num_tokens": 632451.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9305,
-    "step": 1861
+    "num_tokens": 1279034.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.8599999999999999,
+    "step": 1860
   },
   {
-    "loss": 0.0434,
-    "grad_norm": 1.028780460357666,
+    "loss": 0.057,
+    "grad_norm": 0.9016417860984802,
     "learning_rate": 1.42e-06,
-    "num_tokens": 632963.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.931,
-    "step": 1862
+    "num_tokens": 1280058.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.861,
+    "step": 1861
   },
   {
-    "loss": 0.055,
-    "grad_norm": 1.3252202272415161,
+    "loss": 0.0065,
+    "grad_norm": 1.1208806037902832,
     "learning_rate": 1.41e-06,
-    "num_tokens": 633475.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.9315,
-    "step": 1863
+    "num_tokens": 1280240.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.862,
+    "step": 1862
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.34616848826408386,
+    "loss": 0.0347,
+    "grad_norm": 0.9389989972114563,
     "learning_rate": 1.4000000000000001e-06,
-    "num_tokens": 633566.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.932,
-    "step": 1864
+    "num_tokens": 1280843.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.863,
+    "step": 1863
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.345546156167984,
+    "loss": 0.0457,
+    "grad_norm": 0.7054025530815125,
     "learning_rate": 1.3900000000000002e-06,
-    "num_tokens": 633657.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9325,
-    "step": 1865
+    "num_tokens": 1281867.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.8639999999999999,
+    "step": 1864
   },
   {
-    "loss": 0.041,
-    "grad_norm": 1.0742279291152954,
+    "loss": 0.0512,
+    "grad_norm": 0.9198103547096252,
     "learning_rate": 1.3800000000000001e-06,
-    "num_tokens": 634169.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.933,
-    "step": 1866
+    "num_tokens": 1282891.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.865,
+    "step": 1865
   },
   {
-    "loss": 0.0558,
-    "grad_norm": 1.3981537818908691,
+    "loss": 0.0508,
+    "grad_norm": 0.9358418583869934,
     "learning_rate": 1.3700000000000002e-06,
-    "num_tokens": 634681.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.9335,
-    "step": 1867
+    "num_tokens": 1283494.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.866,
+    "step": 1866
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.3480032682418823,
+    "loss": 0.0477,
+    "grad_norm": 0.7468611001968384,
     "learning_rate": 1.3600000000000001e-06,
-    "num_tokens": 634772.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.934,
-    "step": 1868
+    "num_tokens": 1284518.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.867,
+    "step": 1867
   },
   {
-    "loss": 0.0414,
-    "grad_norm": 1.1904889345169067,
+    "loss": 0.043,
+    "grad_norm": 0.7610995769500732,
     "learning_rate": 1.3500000000000002e-06,
-    "num_tokens": 635284.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.9345,
-    "step": 1869
+    "num_tokens": 1285542.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.8679999999999999,
+    "step": 1868
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.32626014947891235,
+    "loss": 0.0492,
+    "grad_norm": 0.8499964475631714,
     "learning_rate": 1.34e-06,
-    "num_tokens": 635375.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.935,
-    "step": 1870
+    "num_tokens": 1286566.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.869,
+    "step": 1869
   },
   {
-    "loss": 0.0019,
-    "grad_norm": 0.3311507999897003,
+    "loss": 0.058,
+    "grad_norm": 0.7332651615142822,
     "learning_rate": 1.3300000000000002e-06,
-    "num_tokens": 635466.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9355,
-    "step": 1871
+    "num_tokens": 1287590.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.87,
+    "step": 1870
   },
   {
-    "loss": 0.0417,
-    "grad_norm": 1.0487819910049438,
+    "loss": 0.0471,
+    "grad_norm": 0.8671208620071411,
     "learning_rate": 1.32e-06,
-    "num_tokens": 635978.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.936,
-    "step": 1872
+    "num_tokens": 1288193.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.871,
+    "step": 1871
   },
   {
-    "loss": 0.0612,
-    "grad_norm": 1.482262372970581,
+    "loss": 0.0474,
+    "grad_norm": 0.8300747275352478,
     "learning_rate": 1.3100000000000002e-06,
-    "num_tokens": 636490.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.9365,
-    "step": 1873
+    "num_tokens": 1289217.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.8719999999999999,
+    "step": 1872
   },
   {
-    "loss": 0.0597,
-    "grad_norm": 1.0906400680541992,
+    "loss": 0.1259,
+    "grad_norm": 1.9161871671676636,
     "learning_rate": 1.3e-06,
-    "num_tokens": 637002.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.937,
-    "step": 1874
+    "num_tokens": 1289820.0,
+    "mean_token_accuracy": 0.9567387700080872,
+    "epoch": 1.873,
+    "step": 1873
   },
   {
-    "loss": 0.0451,
-    "grad_norm": 1.3021650314331055,
+    "loss": 0.0537,
+    "grad_norm": 1.0094809532165527,
     "learning_rate": 1.2900000000000001e-06,
-    "num_tokens": 637514.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.9375,
-    "step": 1875
+    "num_tokens": 1290423.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.874,
+    "step": 1874
   },
   {
-    "loss": 0.0566,
-    "grad_norm": 1.1073824167251587,
+    "loss": 0.0535,
+    "grad_norm": 0.8210059404373169,
     "learning_rate": 1.28e-06,
-    "num_tokens": 638026.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.938,
-    "step": 1876
+    "num_tokens": 1291026.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.875,
+    "step": 1875
   },
   {
-    "loss": 0.0021,
-    "grad_norm": 0.366703599691391,
+    "loss": 0.0063,
+    "grad_norm": 1.0734435319900513,
     "learning_rate": 1.2700000000000001e-06,
-    "num_tokens": 638117.0,
+    "num_tokens": 1291208.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.9385,
-    "step": 1877
+    "epoch": 1.876,
+    "step": 1876
   },
   {
-    "loss": 0.0402,
-    "grad_norm": 1.114858865737915,
+    "loss": 0.0332,
+    "grad_norm": 0.7847937345504761,
     "learning_rate": 1.26e-06,
-    "num_tokens": 638629.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.939,
-    "step": 1878
+    "num_tokens": 1291811.0,
+    "mean_token_accuracy": 0.9850249290466309,
+    "epoch": 1.877,
+    "step": 1877
   },
   {
-    "loss": 0.0726,
-    "grad_norm": 1.9793658256530762,
+    "loss": 0.0618,
+    "grad_norm": 0.8579657077789307,
     "learning_rate": 1.25e-06,
-    "num_tokens": 639141.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.9395,
-    "step": 1879
+    "num_tokens": 1292835.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.8780000000000001,
+    "step": 1878
   },
   {
-    "loss": 0.0393,
-    "grad_norm": 1.212233066558838,
+    "loss": 0.0547,
+    "grad_norm": 0.8215232491493225,
     "learning_rate": 1.2400000000000002e-06,
-    "num_tokens": 639653.0,
-    "mean_token_accuracy": 0.9902152419090271,
-    "epoch": 0.94,
-    "step": 1880
+    "num_tokens": 1293859.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.879,
+    "step": 1879
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.3448551893234253,
+    "loss": 0.0317,
+    "grad_norm": 0.7249704599380493,
     "learning_rate": 1.23e-06,
-    "num_tokens": 639744.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9405,
-    "step": 1881
+    "num_tokens": 1294462.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.88,
+    "step": 1880
   },
   {
-    "loss": 0.002,
-    "grad_norm": 0.33576035499572754,
+    "loss": 0.0721,
+    "grad_norm": 1.369104027748108,
     "learning_rate": 1.2200000000000002e-06,
-    "num_tokens": 639835.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.941,
-    "step": 1882
+    "num_tokens": 1295486.0,
+    "mean_token_accuracy": 0.965753436088562,
+    "epoch": 1.881,
+    "step": 1881
   },
   {
-    "loss": 0.0662,
-    "grad_norm": 1.6050575971603394,
+    "loss": 0.054,
+    "grad_norm": 1.2583900690078735,
     "learning_rate": 1.21e-06,
-    "num_tokens": 640347.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.9415,
-    "step": 1883
+    "num_tokens": 1296089.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.8820000000000001,
+    "step": 1882
   },
   {
-    "loss": 0.0361,
-    "grad_norm": 1.034451961517334,
+    "loss": 0.0529,
+    "grad_norm": 0.9122426509857178,
     "learning_rate": 1.2000000000000002e-06,
-    "num_tokens": 640859.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.942,
-    "step": 1884
+    "num_tokens": 1296692.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.883,
+    "step": 1883
   },
   {
-    "loss": 0.0022,
-    "grad_norm": 0.3761736750602722,
+    "loss": 0.0492,
+    "grad_norm": 0.7298877835273743,
     "learning_rate": 1.19e-06,
-    "num_tokens": 640950.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9425,
-    "step": 1885
+    "num_tokens": 1297716.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.884,
+    "step": 1884
   },
   {
-    "loss": 0.0648,
-    "grad_norm": 1.8947163820266724,
+    "loss": 0.0565,
+    "grad_norm": 1.4061273336410522,
     "learning_rate": 1.1800000000000001e-06,
-    "num_tokens": 641462.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.943,
-    "step": 1886
+    "num_tokens": 1298319.0,
+    "mean_token_accuracy": 0.9700499176979065,
+    "epoch": 1.885,
+    "step": 1885
   },
   {
-    "loss": 0.0556,
-    "grad_norm": 1.317289113998413,
+    "loss": 0.0485,
+    "grad_norm": 0.9004549384117126,
     "learning_rate": 1.1700000000000002e-06,
-    "num_tokens": 641974.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.9435,
-    "step": 1887
+    "num_tokens": 1299343.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.8860000000000001,
+    "step": 1886
   },
   {
-    "loss": 0.0441,
-    "grad_norm": 1.1064449548721313,
+    "loss": 0.007,
+    "grad_norm": 1.170093059539795,
     "learning_rate": 1.1600000000000001e-06,
-    "num_tokens": 642486.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.944,
-    "step": 1888
+    "num_tokens": 1299525.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.887,
+    "step": 1887
   },
   {
-    "loss": 0.0895,
-    "grad_norm": 1.8790072202682495,
+    "loss": 0.0067,
+    "grad_norm": 1.128398060798645,
     "learning_rate": 1.1500000000000002e-06,
-    "num_tokens": 642998.0,
-    "mean_token_accuracy": 0.9608610272407532,
-    "epoch": 0.9445,
-    "step": 1889
+    "num_tokens": 1299707.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.888,
+    "step": 1888
   },
   {
-    "loss": 0.0824,
-    "grad_norm": 2.2661681175231934,
+    "loss": 0.052,
+    "grad_norm": 0.8170666098594666,
     "learning_rate": 1.14e-06,
-    "num_tokens": 643510.0,
-    "mean_token_accuracy": 0.9628180265426636,
-    "epoch": 0.945,
-    "step": 1890
+    "num_tokens": 1300731.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.889,
+    "step": 1889
   },
   {
-    "loss": 0.08,
-    "grad_norm": 2.5085411071777344,
+    "loss": 0.0447,
+    "grad_norm": 0.7825000882148743,
     "learning_rate": 1.1300000000000002e-06,
-    "num_tokens": 644022.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.9455,
-    "step": 1891
+    "num_tokens": 1301755.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.8900000000000001,
+    "step": 1890
   },
   {
-    "loss": 0.0382,
-    "grad_norm": 0.8821580410003662,
+    "loss": 0.0479,
+    "grad_norm": 0.7074435949325562,
     "learning_rate": 1.12e-06,
-    "num_tokens": 644534.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.946,
-    "step": 1892
+    "num_tokens": 1302779.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.891,
+    "step": 1891
   },
   {
-    "loss": 0.0419,
-    "grad_norm": 1.2789467573165894,
+    "loss": 0.0559,
+    "grad_norm": 1.2572802305221558,
     "learning_rate": 1.1100000000000002e-06,
-    "num_tokens": 645046.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.9465,
-    "step": 1893
+    "num_tokens": 1303382.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.892,
+    "step": 1892
   },
   {
-    "loss": 0.0661,
-    "grad_norm": 1.2416129112243652,
+    "loss": 0.0062,
+    "grad_norm": 1.083220362663269,
     "learning_rate": 1.1e-06,
-    "num_tokens": 645558.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.947,
-    "step": 1894
+    "num_tokens": 1303564.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.893,
+    "step": 1893
   },
   {
-    "loss": 0.0385,
-    "grad_norm": 1.19954514503479,
+    "loss": 0.0373,
+    "grad_norm": 1.386085867881775,
     "learning_rate": 1.0900000000000002e-06,
-    "num_tokens": 646070.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.9475,
-    "step": 1895
+    "num_tokens": 1304167.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.8940000000000001,
+    "step": 1894
   },
   {
-    "loss": 0.0803,
-    "grad_norm": 1.7022594213485718,
+    "loss": 0.0499,
+    "grad_norm": 0.9271661043167114,
     "learning_rate": 1.08e-06,
-    "num_tokens": 646582.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.948,
-    "step": 1896
+    "num_tokens": 1304770.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.895,
+    "step": 1895
   },
   {
-    "loss": 0.0651,
-    "grad_norm": 1.4528557062149048,
+    "loss": 0.0069,
+    "grad_norm": 1.1777589321136475,
     "learning_rate": 1.0700000000000001e-06,
-    "num_tokens": 647094.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.9485,
-    "step": 1897
+    "num_tokens": 1304952.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.896,
+    "step": 1896
   },
   {
-    "loss": 0.0647,
-    "grad_norm": 1.2057602405548096,
+    "loss": 0.0063,
+    "grad_norm": 1.0855423212051392,
     "learning_rate": 1.06e-06,
-    "num_tokens": 647606.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.949,
-    "step": 1898
+    "num_tokens": 1305134.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.897,
+    "step": 1897
   },
   {
-    "loss": 0.0609,
-    "grad_norm": 1.2766141891479492,
+    "loss": 0.0563,
+    "grad_norm": 0.6582868099212646,
     "learning_rate": 1.0500000000000001e-06,
-    "num_tokens": 648118.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.9495,
-    "step": 1899
+    "num_tokens": 1306158.0,
+    "mean_token_accuracy": 0.9696673154830933,
+    "epoch": 1.8980000000000001,
+    "step": 1898
   },
   {
-    "loss": 0.0437,
-    "grad_norm": 1.1985217332839966,
+    "loss": 0.0322,
+    "grad_norm": 0.929911196231842,
     "learning_rate": 1.04e-06,
-    "num_tokens": 648630.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.95,
-    "step": 1900
+    "num_tokens": 1306761.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.899,
+    "step": 1899
   },
   {
-    "loss": 0.0571,
-    "grad_norm": 1.1973105669021606,
+    "loss": 0.0313,
+    "grad_norm": 0.7664781808853149,
     "learning_rate": 1.03e-06,
-    "num_tokens": 649142.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.9505,
-    "step": 1901
+    "num_tokens": 1307364.0,
+    "mean_token_accuracy": 0.9883527159690857,
+    "epoch": 1.9,
+    "step": 1900
   },
   {
-    "loss": 0.0664,
-    "grad_norm": 1.5751904249191284,
+    "loss": 0.0367,
+    "grad_norm": 0.8684309124946594,
     "learning_rate": 1.02e-06,
-    "num_tokens": 649654.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.951,
-    "step": 1902
+    "num_tokens": 1307967.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.901,
+    "step": 1901
   },
   {
-    "loss": 0.0436,
-    "grad_norm": 1.0939377546310425,
+    "loss": 0.0559,
+    "grad_norm": 1.2534968852996826,
     "learning_rate": 1.01e-06,
-    "num_tokens": 650166.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.9515,
-    "step": 1903
+    "num_tokens": 1308570.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.9020000000000001,
+    "step": 1902
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.5472993850708008,
+    "loss": 0.0654,
+    "grad_norm": 1.0085036754608154,
     "learning_rate": 1.0000000000000002e-06,
-    "num_tokens": 650257.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.952,
-    "step": 1904
+    "num_tokens": 1309594.0,
+    "mean_token_accuracy": 0.9647749662399292,
+    "epoch": 1.903,
+    "step": 1903
   },
   {
-    "loss": 0.0595,
-    "grad_norm": 1.3305593729019165,
+    "loss": 0.0055,
+    "grad_norm": 0.9474945068359375,
     "learning_rate": 9.9e-07,
-    "num_tokens": 650769.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.9525,
-    "step": 1905
+    "num_tokens": 1309776.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.904,
+    "step": 1904
   },
   {
-    "loss": 0.0391,
-    "grad_norm": 1.123191475868225,
+    "loss": 0.0468,
+    "grad_norm": 0.9569233059883118,
     "learning_rate": 9.800000000000001e-07,
-    "num_tokens": 651281.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.953,
-    "step": 1906
+    "num_tokens": 1310800.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.905,
+    "step": 1905
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.5546753406524658,
+    "loss": 0.0344,
+    "grad_norm": 0.797659695148468,
     "learning_rate": 9.7e-07,
-    "num_tokens": 651372.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9535,
-    "step": 1907
+    "num_tokens": 1311403.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.9060000000000001,
+    "step": 1906
   },
   {
-    "loss": 0.0031,
-    "grad_norm": 0.5491161942481995,
+    "loss": 0.0495,
+    "grad_norm": 0.9170741438865662,
     "learning_rate": 9.600000000000001e-07,
-    "num_tokens": 651463.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.954,
-    "step": 1908
+    "num_tokens": 1312006.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.907,
+    "step": 1907
   },
   {
-    "loss": 0.0687,
-    "grad_norm": 2.234290599822998,
+    "loss": 0.0051,
+    "grad_norm": 0.8878421187400818,
     "learning_rate": 9.500000000000001e-07,
-    "num_tokens": 651975.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.9545,
-    "step": 1909
+    "num_tokens": 1312188.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.908,
+    "step": 1908
   },
   {
-    "loss": 0.0586,
-    "grad_norm": 1.2323557138442993,
+    "loss": 0.0441,
+    "grad_norm": 0.9606658220291138,
     "learning_rate": 9.400000000000001e-07,
-    "num_tokens": 652487.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.955,
-    "step": 1910
+    "num_tokens": 1312791.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.909,
+    "step": 1909
   },
   {
-    "loss": 0.0557,
-    "grad_norm": 1.1316601037979126,
+    "loss": 0.0589,
+    "grad_norm": 0.9086238145828247,
     "learning_rate": 9.300000000000001e-07,
-    "num_tokens": 652999.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.9555,
-    "step": 1911
+    "num_tokens": 1313815.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.9100000000000001,
+    "step": 1910
   },
   {
-    "loss": 0.0399,
-    "grad_norm": 1.354643702507019,
+    "loss": 0.0057,
+    "grad_norm": 0.9700196981430054,
     "learning_rate": 9.200000000000001e-07,
-    "num_tokens": 653511.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.956,
-    "step": 1912
+    "num_tokens": 1313997.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.911,
+    "step": 1911
   },
   {
-    "loss": 0.0032,
-    "grad_norm": 0.5774580836296082,
-    "learning_rate": 9.100000000000001e-07,
-    "num_tokens": 653602.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9565,
-    "step": 1913
+    "loss": 0.0527,
+    "grad_norm": 1.117866039276123,
+    "learning_rate": 9.100000000000001e-07,
+    "num_tokens": 1314600.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.912,
+    "step": 1912
   },
   {
-    "loss": 0.2131,
-    "grad_norm": 5.501800537109375,
+    "loss": 0.0321,
+    "grad_norm": 0.7691379189491272,
     "learning_rate": 9.000000000000001e-07,
-    "num_tokens": 654114.0,
-    "mean_token_accuracy": 0.9393346309661865,
-    "epoch": 0.957,
-    "step": 1914
+    "num_tokens": 1315203.0,
+    "mean_token_accuracy": 0.9866888523101807,
+    "epoch": 1.913,
+    "step": 1913
   },
   {
-    "loss": 0.0552,
-    "grad_norm": 1.1691670417785645,
+    "loss": 0.0485,
+    "grad_norm": 1.0280470848083496,
     "learning_rate": 8.900000000000001e-07,
-    "num_tokens": 654626.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.9575,
-    "step": 1915
+    "num_tokens": 1315806.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.9140000000000001,
+    "step": 1914
   },
   {
-    "loss": 0.0571,
-    "grad_norm": 1.3334885835647583,
+    "loss": 0.0614,
+    "grad_norm": 1.213173508644104,
     "learning_rate": 8.8e-07,
-    "num_tokens": 655138.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.958,
-    "step": 1916
+    "num_tokens": 1316409.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.915,
+    "step": 1915
   },
   {
-    "loss": 0.0033,
-    "grad_norm": 0.5850784778594971,
+    "loss": 0.0449,
+    "grad_norm": 0.8026267886161804,
     "learning_rate": 8.7e-07,
-    "num_tokens": 655229.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9585,
-    "step": 1917
+    "num_tokens": 1317433.0,
+    "mean_token_accuracy": 0.9794520735740662,
+    "epoch": 1.916,
+    "step": 1916
   },
   {
-    "loss": 0.0751,
-    "grad_norm": 2.8085896968841553,
+    "loss": 0.0053,
+    "grad_norm": 0.9020451903343201,
     "learning_rate": 8.6e-07,
-    "num_tokens": 655741.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.959,
-    "step": 1918
+    "num_tokens": 1317615.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.917,
+    "step": 1917
   },
   {
-    "loss": 0.0805,
-    "grad_norm": 1.9259722232818604,
+    "loss": 0.0465,
+    "grad_norm": 0.9917466044425964,
     "learning_rate": 8.500000000000001e-07,
-    "num_tokens": 656253.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.9595,
-    "step": 1919
+    "num_tokens": 1318218.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.9180000000000001,
+    "step": 1918
   },
   {
-    "loss": 0.0404,
-    "grad_norm": 1.23832106590271,
+    "loss": 0.0338,
+    "grad_norm": 0.8889523148536682,
     "learning_rate": 8.400000000000001e-07,
-    "num_tokens": 656765.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.96,
-    "step": 1920
+    "num_tokens": 1318821.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.919,
+    "step": 1919
   },
   {
-    "loss": 0.0566,
-    "grad_norm": 1.0702412128448486,
+    "loss": 0.0521,
+    "grad_norm": 0.8119315505027771,
     "learning_rate": 8.300000000000001e-07,
-    "num_tokens": 657277.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.9605,
-    "step": 1921
+    "num_tokens": 1319845.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.92,
+    "step": 1920
   },
   {
-    "loss": 0.0608,
-    "grad_norm": 1.4386783838272095,
+    "loss": 0.0378,
+    "grad_norm": 0.9816769957542419,
     "learning_rate": 8.200000000000001e-07,
-    "num_tokens": 657789.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.961,
-    "step": 1922
+    "num_tokens": 1320448.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.921,
+    "step": 1921
   },
   {
-    "loss": 0.0592,
-    "grad_norm": 1.2550030946731567,
+    "loss": 0.0613,
+    "grad_norm": 1.0251444578170776,
     "learning_rate": 8.100000000000001e-07,
-    "num_tokens": 658301.0,
+    "num_tokens": 1321472.0,
     "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.9615,
-    "step": 1923
+    "epoch": 1.9220000000000002,
+    "step": 1922
   },
   {
-    "loss": 0.0434,
-    "grad_norm": 1.8757680654525757,
+    "loss": 0.0345,
+    "grad_norm": 0.9047452211380005,
     "learning_rate": 8.000000000000001e-07,
-    "num_tokens": 658813.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.962,
-    "step": 1924
+    "num_tokens": 1322075.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.923,
+    "step": 1923
   },
   {
-    "loss": 0.2038,
-    "grad_norm": 4.9877095222473145,
+    "loss": 0.0049,
+    "grad_norm": 0.8505979776382446,
     "learning_rate": 7.900000000000001e-07,
-    "num_tokens": 659325.0,
-    "mean_token_accuracy": 0.9412915706634521,
-    "epoch": 0.9625,
-    "step": 1925
+    "num_tokens": 1322257.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.924,
+    "step": 1924
   },
   {
-    "loss": 0.0037,
-    "grad_norm": 0.6778392791748047,
+    "loss": 0.0397,
+    "grad_norm": 0.9435928463935852,
     "learning_rate": 7.8e-07,
-    "num_tokens": 659416.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.963,
-    "step": 1926
+    "num_tokens": 1322860.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.925,
+    "step": 1925
   },
   {
-    "loss": 0.048,
-    "grad_norm": 1.6256376504898071,
+    "loss": 0.0378,
+    "grad_norm": 0.8154147863388062,
     "learning_rate": 7.7e-07,
-    "num_tokens": 659928.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.9635,
-    "step": 1927
+    "num_tokens": 1323884.0,
+    "mean_token_accuracy": 0.980430543422699,
+    "epoch": 1.9260000000000002,
+    "step": 1926
   },
   {
-    "loss": 0.0561,
-    "grad_norm": 1.4658511877059937,
+    "loss": 0.0592,
+    "grad_norm": 1.2856541872024536,
     "learning_rate": 7.6e-07,
-    "num_tokens": 660440.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.964,
-    "step": 1928
+    "num_tokens": 1324487.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.927,
+    "step": 1927
   },
   {
-    "loss": 0.071,
-    "grad_norm": 1.7589434385299683,
+    "loss": 0.0527,
+    "grad_norm": 0.998885452747345,
     "learning_rate": 7.5e-07,
-    "num_tokens": 660952.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.9645,
-    "step": 1929
+    "num_tokens": 1325090.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.928,
+    "step": 1928
   },
   {
-    "loss": 0.0403,
-    "grad_norm": 1.2130093574523926,
+    "loss": 0.0418,
+    "grad_norm": 1.227192759513855,
     "learning_rate": 7.4e-07,
-    "num_tokens": 661464.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.965,
-    "step": 1930
+    "num_tokens": 1325693.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.929,
+    "step": 1929
   },
   {
-    "loss": 0.0594,
-    "grad_norm": 1.2599217891693115,
+    "loss": 0.0353,
+    "grad_norm": 0.9215168356895447,
     "learning_rate": 7.3e-07,
-    "num_tokens": 661976.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.9655,
-    "step": 1931
+    "num_tokens": 1326296.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.9300000000000002,
+    "step": 1930
   },
   {
-    "loss": 0.0584,
-    "grad_norm": 1.2125273942947388,
+    "loss": 0.0614,
+    "grad_norm": 0.9548213481903076,
     "learning_rate": 7.2e-07,
-    "num_tokens": 662488.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.966,
-    "step": 1932
+    "num_tokens": 1327320.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.931,
+    "step": 1931
   },
   {
-    "loss": 0.0039,
-    "grad_norm": 0.6885141730308533,
+    "loss": 0.005,
+    "grad_norm": 0.8584897518157959,
     "learning_rate": 7.1e-07,
-    "num_tokens": 662579.0,
+    "num_tokens": 1327502.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.9665,
-    "step": 1933
+    "epoch": 1.932,
+    "step": 1932
   },
   {
-    "loss": 0.056,
-    "grad_norm": 1.233972430229187,
+    "loss": 0.0521,
+    "grad_norm": 0.8318498134613037,
     "learning_rate": 7.000000000000001e-07,
-    "num_tokens": 663091.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.967,
-    "step": 1934
+    "num_tokens": 1328526.0,
+    "mean_token_accuracy": 0.9745596647262573,
+    "epoch": 1.933,
+    "step": 1933
   },
   {
-    "loss": 0.004,
-    "grad_norm": 0.7142868041992188,
+    "loss": 0.0393,
+    "grad_norm": 0.8967841267585754,
     "learning_rate": 6.900000000000001e-07,
-    "num_tokens": 663182.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9675,
-    "step": 1935
+    "num_tokens": 1329129.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.9340000000000002,
+    "step": 1934
   },
   {
-    "loss": 0.0614,
-    "grad_norm": 1.4658222198486328,
+    "loss": 0.0049,
+    "grad_norm": 0.8509653806686401,
     "learning_rate": 6.800000000000001e-07,
-    "num_tokens": 663694.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.968,
-    "step": 1936
+    "num_tokens": 1329311.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.935,
+    "step": 1935
   },
   {
-    "loss": 0.0493,
-    "grad_norm": 1.051007866859436,
+    "loss": 0.0844,
+    "grad_norm": 1.9590702056884766,
     "learning_rate": 6.7e-07,
-    "num_tokens": 664206.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.9685,
-    "step": 1937
+    "num_tokens": 1330335.0,
+    "mean_token_accuracy": 0.9608610272407532,
+    "epoch": 1.936,
+    "step": 1936
   },
   {
-    "loss": 0.0409,
-    "grad_norm": 1.2317217588424683,
+    "loss": 0.0048,
+    "grad_norm": 0.8454121351242065,
     "learning_rate": 6.6e-07,
-    "num_tokens": 664718.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.969,
-    "step": 1938
+    "num_tokens": 1330517.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.937,
+    "step": 1937
   },
   {
-    "loss": 0.004,
-    "grad_norm": 0.7169041633605957,
+    "loss": 0.0049,
+    "grad_norm": 0.8549466133117676,
     "learning_rate": 6.5e-07,
-    "num_tokens": 664809.0,
+    "num_tokens": 1330699.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.9695,
-    "step": 1939
+    "epoch": 1.938,
+    "step": 1938
   },
   {
-    "loss": 0.0393,
-    "grad_norm": 1.290911316871643,
+    "loss": 0.0495,
+    "grad_norm": 1.1537846326828003,
     "learning_rate": 6.4e-07,
-    "num_tokens": 665321.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.97,
-    "step": 1940
+    "num_tokens": 1331302.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.939,
+    "step": 1939
   },
   {
-    "loss": 0.043,
-    "grad_norm": 1.550564169883728,
+    "loss": 0.0532,
+    "grad_norm": 0.8321271538734436,
     "learning_rate": 6.3e-07,
-    "num_tokens": 665833.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.9705,
-    "step": 1941
+    "num_tokens": 1332326.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.94,
+    "step": 1940
   },
   {
-    "loss": 0.044,
-    "grad_norm": 1.1559568643569946,
+    "loss": 0.0553,
+    "grad_norm": 0.9713524580001831,
     "learning_rate": 6.200000000000001e-07,
-    "num_tokens": 666345.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.971,
-    "step": 1942
+    "num_tokens": 1333350.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.9409999999999998,
+    "step": 1941
   },
   {
-    "loss": 0.0761,
-    "grad_norm": 1.5238863229751587,
+    "loss": 0.047,
+    "grad_norm": 0.9886651635169983,
     "learning_rate": 6.100000000000001e-07,
-    "num_tokens": 666857.0,
-    "mean_token_accuracy": 0.9667319059371948,
-    "epoch": 0.9715,
-    "step": 1943
+    "num_tokens": 1333953.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.942,
+    "step": 1942
   },
   {
-    "loss": 0.0479,
-    "grad_norm": 1.310771107673645,
+    "loss": 0.0046,
+    "grad_norm": 0.8035193085670471,
     "learning_rate": 6.000000000000001e-07,
-    "num_tokens": 667369.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.972,
-    "step": 1944
+    "num_tokens": 1334135.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.943,
+    "step": 1943
   },
   {
-    "loss": 0.0463,
-    "grad_norm": 1.120958924293518,
+    "loss": 0.0528,
+    "grad_norm": 1.0886720418930054,
     "learning_rate": 5.900000000000001e-07,
-    "num_tokens": 667881.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.9725,
-    "step": 1945
+    "num_tokens": 1334738.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.944,
+    "step": 1944
   },
   {
-    "loss": 0.0039,
-    "grad_norm": 0.6784827709197998,
+    "loss": 0.04,
+    "grad_norm": 0.7274325489997864,
     "learning_rate": 5.800000000000001e-07,
-    "num_tokens": 667972.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.973,
-    "step": 1946
+    "num_tokens": 1335762.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.9449999999999998,
+    "step": 1945
   },
   {
-    "loss": 0.0672,
-    "grad_norm": 1.386460542678833,
+    "loss": 0.0486,
+    "grad_norm": 0.8618095517158508,
     "learning_rate": 5.7e-07,
-    "num_tokens": 668484.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.9735,
-    "step": 1947
+    "num_tokens": 1336786.0,
+    "mean_token_accuracy": 0.976516604423523,
+    "epoch": 1.946,
+    "step": 1946
   },
   {
-    "loss": 0.0453,
-    "grad_norm": 1.2751063108444214,
+    "loss": 0.0575,
+    "grad_norm": 0.8250148892402649,
     "learning_rate": 5.6e-07,
-    "num_tokens": 668996.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.974,
-    "step": 1948
+    "num_tokens": 1337810.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.947,
+    "step": 1947
   },
   {
-    "loss": 0.062,
-    "grad_norm": 1.0763590335845947,
+    "loss": 0.0505,
+    "grad_norm": 0.9134087562561035,
     "learning_rate": 5.5e-07,
-    "num_tokens": 669508.0,
-    "mean_token_accuracy": 0.9647749662399292,
-    "epoch": 0.9745,
-    "step": 1949
+    "num_tokens": 1338834.0,
+    "mean_token_accuracy": 0.9774951338768005,
+    "epoch": 1.948,
+    "step": 1948
   },
   {
-    "loss": 0.0571,
-    "grad_norm": 1.2678844928741455,
+    "loss": 0.0578,
+    "grad_norm": 0.9032110571861267,
     "learning_rate": 5.4e-07,
-    "num_tokens": 670020.0,
+    "num_tokens": 1339858.0,
     "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.975,
-    "step": 1950
+    "epoch": 1.9489999999999998,
+    "step": 1949
   },
   {
-    "loss": 0.004,
-    "grad_norm": 0.7198203802108765,
+    "loss": 0.0051,
+    "grad_norm": 0.8683751225471497,
     "learning_rate": 5.3e-07,
-    "num_tokens": 670111.0,
+    "num_tokens": 1340040.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.9755,
-    "step": 1951
+    "epoch": 1.95,
+    "step": 1950
   },
   {
-    "loss": 0.0442,
-    "grad_norm": 1.2891501188278198,
+    "loss": 0.0471,
+    "grad_norm": 0.9614758491516113,
     "learning_rate": 5.2e-07,
-    "num_tokens": 670623.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.976,
-    "step": 1952
+    "num_tokens": 1340643.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.951,
+    "step": 1951
   },
   {
-    "loss": 0.0039,
-    "grad_norm": 0.6999010443687439,
+    "loss": 0.0425,
+    "grad_norm": 0.7443792819976807,
     "learning_rate": 5.1e-07,
-    "num_tokens": 670714.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9765,
-    "step": 1953
+    "num_tokens": 1341246.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.952,
+    "step": 1952
   },
   {
-    "loss": 0.004,
-    "grad_norm": 0.7249695658683777,
+    "loss": 0.0526,
+    "grad_norm": 0.8888201117515564,
     "learning_rate": 5.000000000000001e-07,
-    "num_tokens": 670805.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.977,
-    "step": 1954
+    "num_tokens": 1342270.0,
+    "mean_token_accuracy": 0.9706457853317261,
+    "epoch": 1.9529999999999998,
+    "step": 1953
   },
   {
-    "loss": 0.0781,
-    "grad_norm": 1.6599754095077515,
+    "loss": 0.0315,
+    "grad_norm": 0.8375948667526245,
     "learning_rate": 4.900000000000001e-07,
-    "num_tokens": 671317.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.9775,
-    "step": 1955
+    "num_tokens": 1342873.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.954,
+    "step": 1954
   },
   {
-    "loss": 0.0038,
-    "grad_norm": 0.6885353922843933,
+    "loss": 0.0415,
+    "grad_norm": 0.8021379113197327,
     "learning_rate": 4.800000000000001e-07,
-    "num_tokens": 671408.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.978,
+    "num_tokens": 1343897.0,
+    "mean_token_accuracy": 0.9814090132713318,
+    "epoch": 1.955,
+    "step": 1955
+  },
+  {
+    "loss": 0.0473,
+    "grad_norm": 0.8499237895011902,
+    "learning_rate": 4.7000000000000005e-07,
+    "num_tokens": 1344921.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.956,
     "step": 1956
   },
   {
-    "loss": 0.0568,
-    "grad_norm": 1.6591845750808716,
-    "learning_rate": 4.7000000000000005e-07,
-    "num_tokens": 671920.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.9785,
+    "loss": 0.0517,
+    "grad_norm": 1.1220508813858032,
+    "learning_rate": 4.6000000000000004e-07,
+    "num_tokens": 1345524.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.9569999999999999,
     "step": 1957
   },
   {
-    "loss": 0.0038,
-    "grad_norm": 0.6629458069801331,
-    "learning_rate": 4.6000000000000004e-07,
-    "num_tokens": 672011.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.979,
+    "loss": 0.0486,
+    "grad_norm": 0.9968160390853882,
+    "learning_rate": 4.5000000000000003e-07,
+    "num_tokens": 1346127.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.958,
     "step": 1958
   },
   {
-    "loss": 0.0553,
-    "grad_norm": 1.0831410884857178,
-    "learning_rate": 4.5000000000000003e-07,
-    "num_tokens": 672523.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.9795,
+    "loss": 0.0052,
+    "grad_norm": 0.9024248719215393,
+    "learning_rate": 4.4e-07,
+    "num_tokens": 1346309.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.959,
     "step": 1959
   },
   {
-    "loss": 0.065,
-    "grad_norm": 1.709847331047058,
-    "learning_rate": 4.4e-07,
-    "num_tokens": 673035.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.98,
+    "loss": 0.0328,
+    "grad_norm": 0.7692991495132446,
+    "learning_rate": 4.3e-07,
+    "num_tokens": 1346912.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.96,
     "step": 1960
   },
   {
-    "loss": 0.0446,
-    "grad_norm": 1.2094167470932007,
-    "learning_rate": 4.3e-07,
-    "num_tokens": 673547.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.9805,
+    "loss": 0.05,
+    "grad_norm": 1.0936299562454224,
+    "learning_rate": 4.2000000000000006e-07,
+    "num_tokens": 1347515.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.9609999999999999,
     "step": 1961
   },
   {
-    "loss": 0.0585,
-    "grad_norm": 1.23978853225708,
-    "learning_rate": 4.2000000000000006e-07,
-    "num_tokens": 674059.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.981,
+    "loss": 0.063,
+    "grad_norm": 1.1761913299560547,
+    "learning_rate": 4.1000000000000004e-07,
+    "num_tokens": 1348118.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.962,
     "step": 1962
   },
   {
-    "loss": 0.0039,
-    "grad_norm": 0.6842091083526611,
-    "learning_rate": 4.1000000000000004e-07,
-    "num_tokens": 674150.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9815,
+    "loss": 0.0657,
+    "grad_norm": 1.1236613988876343,
+    "learning_rate": 4.0000000000000003e-07,
+    "num_tokens": 1349142.0,
+    "mean_token_accuracy": 0.9677103757858276,
+    "epoch": 1.963,
     "step": 1963
   },
   {
-    "loss": 0.0603,
-    "grad_norm": 1.337598204612732,
-    "learning_rate": 4.0000000000000003e-07,
-    "num_tokens": 674662.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.982,
+    "loss": 0.0434,
+    "grad_norm": 0.8958877325057983,
+    "learning_rate": 3.9e-07,
+    "num_tokens": 1350166.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.964,
     "step": 1964
   },
   {
-    "loss": 0.004,
-    "grad_norm": 0.7296668291091919,
-    "learning_rate": 3.9e-07,
-    "num_tokens": 674753.0,
+    "loss": 0.0052,
+    "grad_norm": 0.906029462814331,
+    "learning_rate": 3.8e-07,
+    "num_tokens": 1350348.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.9825,
+    "epoch": 1.9649999999999999,
     "step": 1965
   },
   {
-    "loss": 0.0038,
-    "grad_norm": 0.6806443333625793,
-    "learning_rate": 3.8e-07,
-    "num_tokens": 674844.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.983,
+    "loss": 0.0451,
+    "grad_norm": 0.9595372080802917,
+    "learning_rate": 3.7e-07,
+    "num_tokens": 1350951.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.966,
     "step": 1966
   },
   {
-    "loss": 0.0038,
-    "grad_norm": 0.6828562021255493,
-    "learning_rate": 3.7e-07,
-    "num_tokens": 674935.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9835,
+    "loss": 0.0504,
+    "grad_norm": 0.7299979329109192,
+    "learning_rate": 3.6e-07,
+    "num_tokens": 1351975.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.967,
     "step": 1967
   },
   {
-    "loss": 0.0667,
-    "grad_norm": 1.748108148574829,
-    "learning_rate": 3.6e-07,
-    "num_tokens": 675447.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.984,
+    "loss": 0.0435,
+    "grad_norm": 0.7944428324699402,
+    "learning_rate": 3.5000000000000004e-07,
+    "num_tokens": 1352578.0,
+    "mean_token_accuracy": 0.9783693552017212,
+    "epoch": 1.968,
     "step": 1968
   },
   {
-    "loss": 0.0386,
-    "grad_norm": 1.3246146440505981,
-    "learning_rate": 3.5000000000000004e-07,
-    "num_tokens": 675959.0,
-    "mean_token_accuracy": 0.9823874831199646,
-    "epoch": 0.9845,
+    "loss": 0.0488,
+    "grad_norm": 0.6681357026100159,
+    "learning_rate": 3.4000000000000003e-07,
+    "num_tokens": 1353602.0,
+    "mean_token_accuracy": 0.9755381345748901,
+    "epoch": 1.9689999999999999,
     "step": 1969
   },
   {
-    "loss": 0.0038,
-    "grad_norm": 0.6706036329269409,
-    "learning_rate": 3.4000000000000003e-07,
-    "num_tokens": 676050.0,
+    "loss": 0.0049,
+    "grad_norm": 0.874741792678833,
+    "learning_rate": 3.3e-07,
+    "num_tokens": 1353784.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.985,
+    "epoch": 1.97,
     "step": 1970
   },
   {
-    "loss": 0.0552,
-    "grad_norm": 1.2772272825241089,
-    "learning_rate": 3.3e-07,
-    "num_tokens": 676562.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.9855,
-    "step": 1971
-  },
-  {
-    "loss": 0.0596,
-    "grad_norm": 1.3164302110671997,
+    "loss": 0.0051,
+    "grad_norm": 0.8841032385826111,
     "learning_rate": 3.2e-07,
-    "num_tokens": 677074.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.986,
-    "step": 1972
+    "num_tokens": 1353966.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.971,
+    "step": 1971
   },
   {
-    "loss": 0.0582,
-    "grad_norm": 1.3520668745040894,
+    "loss": 0.0371,
+    "grad_norm": 0.8100385665893555,
     "learning_rate": 3.1000000000000005e-07,
-    "num_tokens": 677586.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.9865,
-    "step": 1973
+    "num_tokens": 1354990.0,
+    "mean_token_accuracy": 0.9823874831199646,
+    "epoch": 1.972,
+    "step": 1972
   },
   {
-    "loss": 0.0547,
-    "grad_norm": 1.2490239143371582,
+    "loss": 0.0335,
+    "grad_norm": 0.737175464630127,
     "learning_rate": 3.0000000000000004e-07,
-    "num_tokens": 678098.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.987,
-    "step": 1974
+    "num_tokens": 1355593.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.9729999999999999,
+    "step": 1973
   },
   {
-    "loss": 0.0387,
-    "grad_norm": 1.1652135848999023,
+    "loss": 0.059,
+    "grad_norm": 0.7973077297210693,
     "learning_rate": 2.9000000000000003e-07,
-    "num_tokens": 678610.0,
-    "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.9875,
-    "step": 1975
+    "num_tokens": 1356617.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.974,
+    "step": 1974
   },
   {
-    "loss": 0.0626,
-    "grad_norm": 1.9845855236053467,
+    "loss": 0.0607,
+    "grad_norm": 0.9615496397018433,
     "learning_rate": 2.8e-07,
-    "num_tokens": 679122.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.988,
-    "step": 1976
+    "num_tokens": 1357641.0,
+    "mean_token_accuracy": 0.9686888456344604,
+    "epoch": 1.975,
+    "step": 1975
   },
   {
-    "loss": 0.0038,
-    "grad_norm": 0.6789660453796387,
+    "loss": 0.0519,
+    "grad_norm": 0.9827134609222412,
     "learning_rate": 2.7e-07,
-    "num_tokens": 679213.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9885,
-    "step": 1977
+    "num_tokens": 1358665.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.976,
+    "step": 1976
   },
   {
-    "loss": 0.0037,
-    "grad_norm": 0.678180456161499,
+    "loss": 0.0454,
+    "grad_norm": 0.7800329327583313,
     "learning_rate": 2.6e-07,
-    "num_tokens": 679304.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.989,
-    "step": 1978
+    "num_tokens": 1359268.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.9769999999999999,
+    "step": 1977
   },
   {
-    "loss": 0.0038,
-    "grad_norm": 0.6906817555427551,
+    "loss": 0.0432,
+    "grad_norm": 0.849504292011261,
     "learning_rate": 2.5000000000000004e-07,
-    "num_tokens": 679395.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9895,
-    "step": 1979
+    "num_tokens": 1359871.0,
+    "mean_token_accuracy": 0.981697142124176,
+    "epoch": 1.978,
+    "step": 1978
   },
   {
-    "loss": 0.0516,
-    "grad_norm": 1.1001511812210083,
+    "loss": 0.0491,
+    "grad_norm": 0.753039538860321,
     "learning_rate": 2.4000000000000003e-07,
-    "num_tokens": 679907.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.99,
-    "step": 1980
+    "num_tokens": 1360895.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.979,
+    "step": 1979
   },
   {
-    "loss": 0.0037,
-    "grad_norm": 0.6647882461547852,
+    "loss": 0.0523,
+    "grad_norm": 1.0666791200637817,
     "learning_rate": 2.3000000000000002e-07,
-    "num_tokens": 679998.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9905,
-    "step": 1981
+    "num_tokens": 1361498.0,
+    "mean_token_accuracy": 0.9717137813568115,
+    "epoch": 1.98,
+    "step": 1980
   },
   {
-    "loss": 0.0627,
-    "grad_norm": 1.4906483888626099,
+    "loss": 0.0461,
+    "grad_norm": 0.9669170379638672,
     "learning_rate": 2.2e-07,
-    "num_tokens": 680510.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.991,
-    "step": 1982
+    "num_tokens": 1362101.0,
+    "mean_token_accuracy": 0.980033278465271,
+    "epoch": 1.9809999999999999,
+    "step": 1981
   },
   {
-    "loss": 0.0653,
-    "grad_norm": 1.6483995914459229,
+    "loss": 0.0053,
+    "grad_norm": 0.9321076273918152,
     "learning_rate": 2.1000000000000003e-07,
-    "num_tokens": 681022.0,
-    "mean_token_accuracy": 0.9686888456344604,
-    "epoch": 0.9915,
-    "step": 1983
+    "num_tokens": 1362283.0,
+    "mean_token_accuracy": 1.0,
+    "epoch": 1.982,
+    "step": 1982
   },
   {
-    "loss": 0.0542,
-    "grad_norm": 1.1732497215270996,
+    "loss": 0.0501,
+    "grad_norm": 1.037760615348816,
     "learning_rate": 2.0000000000000002e-07,
-    "num_tokens": 681534.0,
-    "mean_token_accuracy": 0.976516604423523,
-    "epoch": 0.992,
-    "step": 1984
+    "num_tokens": 1362886.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.983,
+    "step": 1983
   },
   {
-    "loss": 0.0035,
-    "grad_norm": 0.6123244762420654,
+    "loss": 0.0471,
+    "grad_norm": 0.6260714530944824,
     "learning_rate": 1.9e-07,
-    "num_tokens": 681625.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9925,
-    "step": 1985
+    "num_tokens": 1363910.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.984,
+    "step": 1984
   },
   {
-    "loss": 0.0628,
-    "grad_norm": 3.3254270553588867,
+    "loss": 0.0539,
+    "grad_norm": 1.0233992338180542,
     "learning_rate": 1.8e-07,
-    "num_tokens": 682137.0,
-    "mean_token_accuracy": 0.9745596647262573,
-    "epoch": 0.993,
-    "step": 1986
+    "num_tokens": 1364513.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.9849999999999999,
+    "step": 1985
   },
   {
-    "loss": 0.0409,
-    "grad_norm": 1.0730781555175781,
+    "loss": 0.0649,
+    "grad_norm": 0.9640028476715088,
     "learning_rate": 1.7000000000000001e-07,
-    "num_tokens": 682649.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.9935,
-    "step": 1987
+    "num_tokens": 1365537.0,
+    "mean_token_accuracy": 0.9716242551803589,
+    "epoch": 1.986,
+    "step": 1986
   },
   {
-    "loss": 0.0034,
-    "grad_norm": 0.5923974514007568,
+    "loss": 0.0051,
+    "grad_norm": 0.877005398273468,
     "learning_rate": 1.6e-07,
-    "num_tokens": 682740.0,
+    "num_tokens": 1365719.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.994,
-    "step": 1988
+    "epoch": 1.987,
+    "step": 1987
   },
   {
-    "loss": 0.033,
-    "grad_norm": 1.07072114944458,
+    "loss": 0.0556,
+    "grad_norm": 0.7788808345794678,
     "learning_rate": 1.5000000000000002e-07,
-    "num_tokens": 683252.0,
-    "mean_token_accuracy": 0.9843444228172302,
-    "epoch": 0.9945,
-    "step": 1989
+    "num_tokens": 1366743.0,
+    "mean_token_accuracy": 0.9735811948776245,
+    "epoch": 1.988,
+    "step": 1988
   },
   {
-    "loss": 0.0563,
-    "grad_norm": 1.1191027164459229,
+    "loss": 0.0483,
+    "grad_norm": 0.9708361625671387,
     "learning_rate": 1.4e-07,
-    "num_tokens": 683764.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.995,
-    "step": 1990
+    "num_tokens": 1367346.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.9889999999999999,
+    "step": 1989
   },
   {
-    "loss": 0.0034,
-    "grad_norm": 0.6199093461036682,
+    "loss": 0.0522,
+    "grad_norm": 0.7852795124053955,
     "learning_rate": 1.3e-07,
-    "num_tokens": 683855.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 0.9955,
-    "step": 1991
+    "num_tokens": 1368370.0,
+    "mean_token_accuracy": 0.9726027250289917,
+    "epoch": 1.99,
+    "step": 1990
   },
   {
-    "loss": 0.0497,
-    "grad_norm": 1.2205955982208252,
+    "loss": 0.0335,
+    "grad_norm": 0.8945266604423523,
     "learning_rate": 1.2000000000000002e-07,
-    "num_tokens": 684367.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.996,
-    "step": 1992
+    "num_tokens": 1368973.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.991,
+    "step": 1991
   },
   {
-    "loss": 0.0553,
-    "grad_norm": 1.2247557640075684,
+    "loss": 0.0511,
+    "grad_norm": 0.971626877784729,
     "learning_rate": 1.1e-07,
-    "num_tokens": 684879.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.9965,
-    "step": 1993
+    "num_tokens": 1369576.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 1.992,
+    "step": 1992
   },
   {
-    "loss": 0.0615,
-    "grad_norm": 1.5119178295135498,
+    "loss": 0.0461,
+    "grad_norm": 0.7959609031677246,
     "learning_rate": 1.0000000000000001e-07,
-    "num_tokens": 685391.0,
-    "mean_token_accuracy": 0.9706457853317261,
-    "epoch": 0.997,
-    "step": 1994
+    "num_tokens": 1370179.0,
+    "mean_token_accuracy": 0.9767054915428162,
+    "epoch": 1.9929999999999999,
+    "step": 1993
   },
   {
-    "loss": 0.0036,
-    "grad_norm": 0.6369652152061462,
+    "loss": 0.0047,
+    "grad_norm": 0.820395827293396,
     "learning_rate": 9e-08,
-    "num_tokens": 685482.0,
+    "num_tokens": 1370361.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.9975,
-    "step": 1995
+    "epoch": 1.994,
+    "step": 1994
   },
   {
-    "loss": 0.0409,
-    "grad_norm": 1.2765092849731445,
+    "loss": 0.0509,
+    "grad_norm": 0.869403064250946,
     "learning_rate": 8e-08,
-    "num_tokens": 685994.0,
-    "mean_token_accuracy": 0.9784736037254333,
-    "epoch": 0.998,
-    "step": 1996
+    "num_tokens": 1370964.0,
+    "mean_token_accuracy": 0.9733777046203613,
+    "epoch": 1.995,
+    "step": 1995
   },
   {
-    "loss": 0.0446,
-    "grad_norm": 1.0794225931167603,
+    "loss": 0.0363,
+    "grad_norm": 0.882118821144104,
     "learning_rate": 7e-08,
-    "num_tokens": 686506.0,
+    "num_tokens": 1371988.0,
     "mean_token_accuracy": 0.980430543422699,
-    "epoch": 0.9985,
-    "step": 1997
+    "epoch": 1.996,
+    "step": 1996
   },
   {
-    "loss": 0.0037,
-    "grad_norm": 0.6602066159248352,
+    "loss": 0.0375,
+    "grad_norm": 0.7351768016815186,
     "learning_rate": 6.000000000000001e-08,
-    "num_tokens": 686597.0,
+    "num_tokens": 1373012.0,
+    "mean_token_accuracy": 0.9784736037254333,
+    "epoch": 1.9969999999999999,
+    "step": 1997
+  },
+  {
+    "loss": 0.0053,
+    "grad_norm": 0.9105353355407715,
+    "learning_rate": 5.0000000000000004e-08,
+    "num_tokens": 1373194.0,
     "mean_token_accuracy": 1.0,
-    "epoch": 0.999,
+    "epoch": 1.998,
     "step": 1998
   },
   {
-    "loss": 0.0637,
-    "grad_norm": 1.4354852437973022,
-    "learning_rate": 5.0000000000000004e-08,
-    "num_tokens": 687109.0,
-    "mean_token_accuracy": 0.9726027250289917,
-    "epoch": 0.9995,
+    "loss": 0.0325,
+    "grad_norm": 0.792142927646637,
+    "learning_rate": 4e-08,
+    "num_tokens": 1373797.0,
+    "mean_token_accuracy": 0.9833610653877258,
+    "epoch": 1.999,
     "step": 1999
   },
   {
-    "loss": 0.0037,
-    "grad_norm": 0.6749649047851562,
-    "learning_rate": 4e-08,
-    "num_tokens": 687200.0,
-    "mean_token_accuracy": 1.0,
-    "epoch": 1.0,
+    "loss": 0.054,
+    "grad_norm": 1.1374331712722778,
+    "learning_rate": 3.0000000000000004e-08,
+    "num_tokens": 1374400.0,
+    "mean_token_accuracy": 0.9750415682792664,
+    "epoch": 2.0,
     "step": 2000
   },
   {
-    "train_runtime": 372.1845,
-    "train_samples_per_second": 5.374,
-    "train_steps_per_second": 5.374,
-    "total_flos": 1.1456146931712e+16,
-    "train_loss": 0.18184852770145518,
-    "epoch": 1.0,
+    "train_runtime": 715.2908,
+    "train_samples_per_second": 5.592,
+    "train_steps_per_second": 2.796,
+    "total_flos": 2.949554402500608e+16,
+    "train_loss": 0.15688225453009363,
+    "epoch": 2.0,
     "step": 2000
   }
 ]
\ No newline at end of file
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_trl_run.json b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_trl_run.json
index cf39b39eacfc4a0eb4375b757c1d2cdd829d1bbd..e49c30bdde3d50be652809e01980974b13691c98 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_trl_run.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_trl_run.json
@@ -4,14 +4,14 @@
   "examples_used": 2000,
   "model_id": "Qwen/Qwen2.5-3B-Instruct",
   "unsloth_available": false,
-  "train_runtime": 372.1845,
-  "train_loss": 0.18184852770145518,
+  "train_runtime": 715.2908,
+  "train_loss": 0.15688225453009363,
   "train_metrics": {
-    "train_runtime": 372.1845,
-    "train_samples_per_second": 5.374,
-    "train_steps_per_second": 5.374,
-    "total_flos": 1.1456146931712e+16,
-    "train_loss": 0.18184852770145518
+    "train_runtime": 715.2908,
+    "train_samples_per_second": 5.592,
+    "train_steps_per_second": 2.796,
+    "total_flos": 2.949554402500608e+16,
+    "train_loss": 0.15688225453009363
   },
   "history_path": "/app/checkpoints/sweeps/qwen-qwen2-5-3b-instruct/sft_history.json",
   "artifact_path": "/app/checkpoints/sweeps/qwen-qwen2-5-3b-instruct/sft_adapter"
diff --git a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/submission_summary.json b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/submission_summary.json
index 67d00756e92a5f7b983ca1856d58db24059c3fad..37ed640b9c257b54c6061eb0aa61029be64cbebb 100644
--- a/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/submission_summary.json
+++ b/docs/results/submission_evidence/qwen_0_5b_1_5b_3b/submission_summary.json
@@ -1,6 +1,6 @@
 {
   "status": "ok",
-  "generated_at_unix": 1777179904.792038,
+  "generated_at_unix": 1777182606.439865,
   "models": [
     {
       "run_id": "qwen-qwen2-5-0-5b-instruct",
@@ -9,9 +9,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "remote_completed_pending_artifact_upload",
-        "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-        "policy_ablation": "remote_completed_pending_artifact_upload"
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
       },
       "metrics": {
         "sft_train_loss": 0.19233327957964502,
@@ -51,9 +51,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "remote_completed_pending_artifact_upload",
-        "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-        "policy_ablation": "remote_completed_pending_artifact_upload"
+        "grpo_training": "not_seen_in_status",
+        "grpo_postsave_inference": "not_seen_in_status",
+        "policy_ablation": "not_seen_in_status"
       },
       "metrics": {
         "sft_train_loss": 0.11515871361242898,
@@ -98,14 +98,14 @@
         "policy_ablation": "not_seen_in_status"
       },
       "metrics": {
-        "sft_train_loss": 0.18184852770145518,
-        "sft_train_runtime": 372.1845,
+        "sft_train_loss": 0.15688225453009363,
+        "sft_train_runtime": 715.2908,
         "sft_examples_used": 2000,
         "sft_history_steps": 2001,
-        "sft_first_loss": 3.569,
-        "sft_last_loss": 0.0037,
-        "sft_best_loss": 0.0011,
-        "sft_last_token_accuracy": 1.0,
+        "sft_first_loss": 3.5687,
+        "sft_last_loss": 0.054,
+        "sft_best_loss": 0.0022,
+        "sft_last_token_accuracy": 0.9750415682792664,
         "sft_valid_rate": 1.0,
         "sft_avg_env_reward": 0.762,
         "sft_avg_latency_seconds": 2.748,
@@ -131,199 +131,24 @@
   ],
   "artifact_repo": {
     "repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
-    "status": "ok",
-    "files": [
-      ".gitattributes",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/README.md",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/bundle_manifest.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/README.md",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/adapter_config.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/adapter_model.safetensors",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/added_tokens.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/chat_template.jinja",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/merges.txt",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/special_tokens_map.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/tokenizer.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/tokenizer_config.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/training_args.bin",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/grpo_adapter/vocab.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/added_tokens.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/chat_template.jinja",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/config.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/generation_config.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/merge_report.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/merges.txt",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/model.safetensors",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/special_tokens_map.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/tokenizer.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/tokenizer_config.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/merged/vocab.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/README.md",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/adapter_config.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/adapter_model.safetensors",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/added_tokens.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/chat_template.jinja",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/merges.txt",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/special_tokens_map.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/tokenizer.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/tokenizer_config.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/training_args.bin",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/checkpoints/sft_adapter/vocab.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/manifests/active_model_manifest.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/manifests/active_model_report_manifest.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/manifests/submission_evidence_manifest.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/acceptance_gate.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/active_model_manifest.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/anti_hacking_overfit_report.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/baselines.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/benchmark_report.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/benchmark_report.txt",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/dose_train.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/dosing_grpo.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/frontier_ready.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/graph_train.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_ablation_report.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_training_cycle/grpo_trl_run.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_training_cycle/hf_training_status.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run_auto.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run_fallback_check.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run_smoke.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/grpo_trl_run_strict_check.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/hf_sweep_summary.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/hf_training_status.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/improvement_report.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/improvement_report_benchmark.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/inference_benchmark.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/planner_grpo.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/plot_index.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/postsave_inference.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/postsave_inference_smoke.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/risk_train.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/robustness.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sft_run.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sft_trl_run.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/supervisor_grpo.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-0-5b-instruct/postsave_inference_sft.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-0-5b-instruct/run_metadata.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-0-5b-instruct/sft_history.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-0-5b-instruct/sft_trl_run.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-1-5b-instruct/postsave_inference_sft.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-1-5b-instruct/run_metadata.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-1-5b-instruct/sft_history.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-1-5b-instruct/sft_trl_run.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-3b-instruct/postsave_inference_sft.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-3b-instruct/run_metadata.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-3b-instruct/sft_history.json",
-      "usable_model_bundles/local-qwen-0-5b-active-smoke/reports/sweeps/qwen-qwen2-5-3b-instruct/sft_trl_run.json"
-    ],
-    "meaningful_file_count": 82,
+    "status": "skipped_local_only",
+    "files": [],
     "error": ""
   },
-  "remote_snapshot_used": "/Users/daver/.cache/huggingface/hub/models--TheJackBright--polyguard-openenv-training-full-artifacts/snapshots/63acc4b1a4167e78b785814b5de63c5a913f9099",
+  "remote_snapshot_used": "",
   "training_space_status": {
     "status": "running",
-    "source": "https://thejackbright-polyguard-openenv-training-full.hf.space",
+    "source": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/reports/hf_training_status.json",
     "completed_run_ids": []
   },
   "stage_records": [
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "sft_training",
-      "returncode": 0,
-      "elapsed_seconds": 257.387,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "grpo_training",
-      "returncode": 0,
-      "elapsed_seconds": 4230.645,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "sft_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 15.201,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "grpo_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 18.461,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-0-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
-      "label": "Qwen 0.5B",
-      "stage": "policy_ablation",
-      "returncode": 0,
-      "elapsed_seconds": 3.989,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "sft_training",
-      "returncode": 0,
-      "elapsed_seconds": 454.278,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "grpo_training",
-      "returncode": 0,
-      "elapsed_seconds": 5118.654,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "sft_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 17.128,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "grpo_postsave_inference",
-      "returncode": 0,
-      "elapsed_seconds": 21.528,
-      "completed": true
-    },
-    {
-      "run_id": "qwen-qwen2-5-1-5b-instruct",
-      "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
-      "label": "Qwen 1.5B",
-      "stage": "policy_ablation",
-      "returncode": 0,
-      "elapsed_seconds": 4.001,
-      "completed": true
-    },
     {
       "run_id": "qwen-qwen2-5-3b-instruct",
       "model_id": "Qwen/Qwen2.5-3B-Instruct",
       "label": "Qwen 3B",
       "stage": "sft_training",
       "returncode": 0,
-      "elapsed_seconds": 736.955,
+      "elapsed_seconds": 737.28,
       "completed": true
     }
   ],
@@ -356,14 +181,14 @@
   },
   "pending_artifacts": [
     "Qwen 0.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 0.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 0.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 0.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 0.5B grpo_training: not_seen_in_status",
+    "Qwen 0.5B policy_ablation: not_seen_in_status",
     "Qwen 0.5B postsave_inference_grpo.json: pending_artifact_upload",
     "Qwen 1.5B grpo_history.json: pending_artifact_upload",
-    "Qwen 1.5B grpo_postsave_inference: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B grpo_training: remote_completed_pending_artifact_upload",
-    "Qwen 1.5B policy_ablation: remote_completed_pending_artifact_upload",
+    "Qwen 1.5B grpo_postsave_inference: not_seen_in_status",
+    "Qwen 1.5B grpo_training: not_seen_in_status",
+    "Qwen 1.5B policy_ablation: not_seen_in_status",
     "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload",
     "Qwen 3B grpo_history.json: pending_artifact_upload",
     "Qwen 3B grpo_postsave_inference: not_seen_in_status",
diff --git a/docs/results/submission_evidence/qwen_3b_continuation/training_space_runtime_status.json b/docs/results/submission_evidence/qwen_3b_continuation/training_space_runtime_status.json
index 3ad09b4bdb02e745d625b83dd9b53650f72a1d05..ced67afc2623d174b50bf6bfa671c3cd1e8cba7f 100644
--- a/docs/results/submission_evidence/qwen_3b_continuation/training_space_runtime_status.json
+++ b/docs/results/submission_evidence/qwen_3b_continuation/training_space_runtime_status.json
@@ -1,29 +1,29 @@
 {
   "status": "ok",
-  "generated_at_utc": "2026-04-26T05:46:48.998961+00:00",
+  "generated_at_utc": "2026-04-26T07:27:40.577913+00:00",
   "space_id": "adithya9903/polyguard-openenv-training-3b-continuation",
   "artifact_repo_id": "adithya9903/polyguard-openenv-training-3b-artifacts",
   "runtime": "SpaceRuntime(stage='RUNNING', hardware='a10g-large', requested_hardware='a10g-large', sleep_time=172800, storage=None, raw={'stage': 'RUNNING', 'hardware': {'current': 'a10g-large', 'requested': 'a10g-large'}, 'gcTimeout': 172800, 'replicas': {'current': 1, 'requested': 1}, 'devMode': False, 'domains': [{'domain': 'adithya9903-polyguard-openenv-training-3b-continuation.hf.space', 'stage': 'READY'}], 'sha': 'fd0c71a0777551a07a1af7337fd9689408adb7f1', 'pySpacesVersion': '0.48.2'})",
   "runtime_error": "",
   "artifact_error": "",
-  "artifact_file_count": 85,
+  "artifact_file_count": 134,
   "has_usable_active_bundle": false,
   "has_full_sweep_artifacts": true,
   "run_statuses": {
     "qwen-qwen2-5-0-5b-instruct": {
       "sft_training": "artifact_available",
-      "grpo_training": "remote_completed_pending_artifact_upload",
+      "grpo_training": "not_seen_in_status",
       "sft_postsave_inference": "artifact_available",
-      "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-      "policy_ablation": "remote_completed_pending_artifact_upload",
+      "grpo_postsave_inference": "not_seen_in_status",
+      "policy_ablation": "not_seen_in_status",
       "artifact_files": []
     },
     "qwen-qwen2-5-1-5b-instruct": {
       "sft_training": "artifact_available",
-      "grpo_training": "remote_completed_pending_artifact_upload",
+      "grpo_training": "not_seen_in_status",
       "sft_postsave_inference": "artifact_available",
-      "grpo_postsave_inference": "remote_completed_pending_artifact_upload",
-      "policy_ablation": "remote_completed_pending_artifact_upload",
+      "grpo_postsave_inference": "not_seen_in_status",
+      "policy_ablation": "not_seen_in_status",
       "artifact_files": []
     },
     "qwen-qwen2-5-3b-instruct": {
@@ -33,6 +33,52 @@
       "grpo_postsave_inference": "not_seen_in_status",
       "policy_ablation": "not_seen_in_status",
       "artifact_files": [
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_adapter/README.md",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_adapter/adapter_config.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_adapter/adapter_model.safetensors",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_adapter/added_tokens.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_adapter/chat_template.jinja",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_adapter/merges.txt",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_adapter/special_tokens_map.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_adapter/tokenizer.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_adapter/tokenizer_config.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_adapter/training_args.bin",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_adapter/vocab.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/README.md",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/adapter_config.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/adapter_model.safetensors",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/added_tokens.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/chat_template.jinja",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/merges.txt",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/optimizer.pt",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/rng_state.pth",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/scaler.pt",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/scheduler.pt",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/special_tokens_map.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/tokenizer.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/tokenizer_config.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/trainer_state.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/training_args.bin",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-1500/vocab.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/README.md",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/adapter_config.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/adapter_model.safetensors",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/added_tokens.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/chat_template.jinja",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/merges.txt",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/optimizer.pt",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/rng_state.pth",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/scaler.pt",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/scheduler.pt",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/special_tokens_map.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/tokenizer.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/tokenizer_config.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/trainer_state.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/training_args.bin",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_artifacts/checkpoint-2000/vocab.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_history.json",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl",
+        "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_trl_checkpoint.json",
         "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/model_registry.json",
         "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/sft_adapter/README.md",
         "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/sft_adapter/adapter_config.json",
@@ -112,6 +158,9 @@
         "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/sft_checkpoint.json",
         "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/sft_generations.json",
         "checkpoints/sweeps/qwen-qwen2-5-3b-instruct/sft_history.json",
+        "outputs/reports/sweeps/qwen-qwen2-5-3b-instruct/grpo_history.json",
+        "outputs/reports/sweeps/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl",
+        "outputs/reports/sweeps/qwen-qwen2-5-3b-instruct/grpo_trl_run.json",
         "outputs/reports/sweeps/qwen-qwen2-5-3b-instruct/run_metadata.json",
         "outputs/reports/sweeps/qwen-qwen2-5-3b-instruct/sft_history.json",
         "outputs/reports/sweeps/qwen-qwen2-5-3b-instruct/sft_trl_run.json"
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/README.md b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/README.md
index 19091d6ac2be667665be6d7d65ab67f81995cd33..2bcc43743e2a50da302f3292bd8993f6b89d15aa 100644
--- a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/README.md
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/README.md
@@ -8,7 +8,7 @@ This folder is generated without retraining. It uses already completed HF Space
 | --- | --- | --- | ---: | ---: | ---: |
 | Qwen 0.5B | artifact_available | not_seen_in_status | 0.1923 | 0.726 | 1.839s |
 | Qwen 1.5B | artifact_available | not_seen_in_status | 0.1152 | 0.726 | 2.158s |
-| Qwen 3B | artifact_available | not_seen_in_status | 0.1569 | 0.762 | 2.748s |
+| Qwen 3B | artifact_available | artifact_available | 0.1569 | 0.781 | 2.863s |
 
 ## Basic LLM vs Full PolyGuard + Bandits Pipeline
 
@@ -29,11 +29,6 @@ This folder is generated without retraining. It uses already completed HF Space
 - Qwen 1.5B grpo_training: not_seen_in_status
 - Qwen 1.5B policy_ablation: not_seen_in_status
 - Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload
-- Qwen 3B grpo_history.json: pending_artifact_upload
-- Qwen 3B grpo_postsave_inference: not_seen_in_status
-- Qwen 3B grpo_training: not_seen_in_status
-- Qwen 3B policy_ablation: not_seen_in_status
-- Qwen 3B postsave_inference_grpo.json: pending_artifact_upload
 
 ## Generated Charts
 
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/generated/basic_llm_vs_full_pipeline_latency.png b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/generated/basic_llm_vs_full_pipeline_latency.png
index 22e5354ec7a37fe69cbbc1d7470164ead83ad14b..02e20931b6ef796b3f1a0a9818ca0035bcb7b8a3 100644
Binary files a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/generated/basic_llm_vs_full_pipeline_latency.png and b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/generated/basic_llm_vs_full_pipeline_latency.png differ
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/generated/qwen_0_5b_1_5b_postsave_latency.png b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/generated/qwen_0_5b_1_5b_postsave_latency.png
index e402f82d70d8172b87407953f1c7489f5adae266..e153b1f095989dc4cf90174ea8b134f5d56199c5 100644
Binary files a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/generated/qwen_0_5b_1_5b_postsave_latency.png and b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/generated/qwen_0_5b_1_5b_postsave_latency.png differ
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/generated/qwen_0_5b_1_5b_postsave_reward.png b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/generated/qwen_0_5b_1_5b_postsave_reward.png
index 1270598b557f9896c48ba0267bb6ceb96982d792..bdf750941a51d0bb5f814bc40c4d38971e77c6a7 100644
Binary files a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/generated/qwen_0_5b_1_5b_postsave_reward.png and b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/charts/generated/qwen_0_5b_1_5b_postsave_reward.png differ
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/manifest.json b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/manifest.json
index e17e1e5c0d7ed592f9b1e1bfba3f35a8e796bcfc..e71c75d77745e8e1aa7543b2c12d96b4688b28c8 100644
--- a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/manifest.json
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/manifest.json
@@ -1,6 +1,6 @@
 {
   "status": "ok",
-  "generated_at_unix": 1777182606.439865,
+  "generated_at_unix": 1777188944.32916,
   "models": [
     {
       "run_id": "qwen-qwen2-5-0-5b-instruct",
@@ -93,9 +93,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "not_seen_in_status",
-        "grpo_postsave_inference": "not_seen_in_status",
-        "policy_ablation": "not_seen_in_status"
+        "grpo_training": "artifact_available",
+        "grpo_postsave_inference": "artifact_available",
+        "policy_ablation": "artifact_available"
       },
       "metrics": {
         "sft_train_loss": 0.15688225453009363,
@@ -107,33 +107,33 @@
         "sft_best_loss": 0.0022,
         "sft_last_token_accuracy": 0.9750415682792664,
         "sft_valid_rate": 1.0,
-        "sft_avg_env_reward": 0.762,
-        "sft_avg_latency_seconds": 2.748,
-        "grpo_avg_reward": null,
-        "grpo_history_steps": 0,
-        "grpo_valid_rate": null,
-        "grpo_avg_env_reward": null,
-        "grpo_avg_latency_seconds": null
+        "sft_avg_env_reward": 0.781,
+        "sft_avg_latency_seconds": 2.863,
+        "grpo_avg_reward": 0.767,
+        "grpo_history_steps": 2001,
+        "grpo_valid_rate": 1.0,
+        "grpo_avg_env_reward": 0.726,
+        "grpo_avg_latency_seconds": 3.681
       },
       "files": {
         "run_metadata.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/run_metadata.json",
         "sft_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_trl_run.json",
         "sft_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_history.json",
         "postsave_inference_sft.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/postsave_inference_sft.json",
-        "grpo_trl_run.json": "",
-        "grpo_history.json": "",
-        "grpo_reward_components.jsonl": "",
-        "postsave_inference_grpo.json": "",
-        "grpo_ablation_report.json": "",
+        "grpo_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_trl_run.json",
+        "grpo_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_history.json",
+        "grpo_reward_components.jsonl": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl",
+        "postsave_inference_grpo.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/postsave_inference_grpo.json",
+        "grpo_ablation_report.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_ablation_report.json",
         "error.json": ""
       }
     }
   ],
   "artifact_repo": {
-    "repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
-    "status": "skipped_local_only",
+    "repo_id": "adithya9903/polyguard-openenv-training-3b-artifacts",
+    "status": "error",
     "files": [],
-    "error": ""
+    "error": "(MaxRetryError('HTTPSConnectionPool(host=\\'huggingface.co\\', port=443): Max retries exceeded with url: /api/models/adithya9903/polyguard-openenv-training-3b-artifacts/tree/main?recursive=True&expand=False (Caused by NameResolutionError(\"HTTPSConnection(host=\\'huggingface.co\\', port=443): Failed to resolve \\'huggingface.co\\' ([Errno 8] nodename nor servname provided, or not known)\"))'), '(Request ID: e2bfdc8f-d828-47fb-88e5-d9e657891fc3)')"
   },
   "remote_snapshot_used": "",
   "training_space_status": {
@@ -189,15 +189,10 @@
     "Qwen 1.5B grpo_postsave_inference: not_seen_in_status",
     "Qwen 1.5B grpo_training: not_seen_in_status",
     "Qwen 1.5B policy_ablation: not_seen_in_status",
-    "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload",
-    "Qwen 3B grpo_history.json: pending_artifact_upload",
-    "Qwen 3B grpo_postsave_inference: not_seen_in_status",
-    "Qwen 3B grpo_training: not_seen_in_status",
-    "Qwen 3B policy_ablation: not_seen_in_status",
-    "Qwen 3B postsave_inference_grpo.json: pending_artifact_upload"
+    "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload"
   ],
   "reward_validation_errors": [],
   "primary_judge": "PolyGuard verifier/reward system",
   "bundle_zip": "submission_bundle/qwen_0_5b_1_5b_3b_evidence.zip",
-  "mirrored_file_count": 66
+  "mirrored_file_count": 71
 }
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/README.md b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/README.md
index 19091d6ac2be667665be6d7d65ab67f81995cd33..2bcc43743e2a50da302f3292bd8993f6b89d15aa 100644
--- a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/README.md
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/README.md
@@ -8,7 +8,7 @@ This folder is generated without retraining. It uses already completed HF Space
 | --- | --- | --- | ---: | ---: | ---: |
 | Qwen 0.5B | artifact_available | not_seen_in_status | 0.1923 | 0.726 | 1.839s |
 | Qwen 1.5B | artifact_available | not_seen_in_status | 0.1152 | 0.726 | 2.158s |
-| Qwen 3B | artifact_available | not_seen_in_status | 0.1569 | 0.762 | 2.748s |
+| Qwen 3B | artifact_available | artifact_available | 0.1569 | 0.781 | 2.863s |
 
 ## Basic LLM vs Full PolyGuard + Bandits Pipeline
 
@@ -29,11 +29,6 @@ This folder is generated without retraining. It uses already completed HF Space
 - Qwen 1.5B grpo_training: not_seen_in_status
 - Qwen 1.5B policy_ablation: not_seen_in_status
 - Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload
-- Qwen 3B grpo_history.json: pending_artifact_upload
-- Qwen 3B grpo_postsave_inference: not_seen_in_status
-- Qwen 3B grpo_training: not_seen_in_status
-- Qwen 3B policy_ablation: not_seen_in_status
-- Qwen 3B postsave_inference_grpo.json: pending_artifact_upload
 
 ## Generated Charts
 
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/action_traces.jsonl b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/action_traces.jsonl
index 442e0e1f4795d18ffe2282a9df799ec0f5b6c8b8..d56e880924f72c4f93f612c103f83f5f25925362 100644
--- a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/action_traces.jsonl
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/action_traces.jsonl
@@ -1,24 +1,24 @@
-{"seed": 8000, "policy": "basic_llm", "reward": 0.717, "latency_seconds": 0.0219, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "exploit_detection", "failure_reasons": ["holdout_ddi_not_addressed"], "anti_cheat_reasons": ["holdout_ddi_not_addressed"], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8000, "policy": "sft_policy", "reward": 0.803, "latency_seconds": 0.0013, "legal": true, "candidate_id": "cand_02", "action_type": "STOP_DRUG", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8000, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 3.0648, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
-{"seed": 8001, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0016, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8001, "policy": "sft_policy", "reward": 0.755, "latency_seconds": 0.0015, "legal": true, "candidate_id": "cand_02", "action_type": "STOP_DRUG", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8001, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0027, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
-{"seed": 8002, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8002, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8002, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 0.0022, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
-{"seed": 8003, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0015, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8003, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0013, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8003, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0026, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
-{"seed": 8004, "policy": "basic_llm", "reward": 0.717, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "exploit_detection", "failure_reasons": ["holdout_ddi_not_addressed"], "anti_cheat_reasons": ["holdout_ddi_not_addressed"], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8000, "policy": "basic_llm", "reward": 0.717, "latency_seconds": 0.0234, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "exploit_detection", "failure_reasons": ["holdout_ddi_not_addressed"], "anti_cheat_reasons": ["holdout_ddi_not_addressed"], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8000, "policy": "sft_policy", "reward": 0.803, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_02", "action_type": "STOP_DRUG", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8000, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 4.1357, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8001, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0013, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8001, "policy": "sft_policy", "reward": 0.755, "latency_seconds": 0.0011, "legal": true, "candidate_id": "cand_02", "action_type": "STOP_DRUG", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8001, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0025, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8002, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0011, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8002, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0015, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8002, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 0.0024, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8003, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8003, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8003, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0022, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8004, "policy": "basic_llm", "reward": 0.717, "latency_seconds": 0.0013, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "exploit_detection", "failure_reasons": ["holdout_ddi_not_addressed"], "anti_cheat_reasons": ["holdout_ddi_not_addressed"], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
 {"seed": 8004, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8004, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 0.0021, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
-{"seed": 8005, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0015, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8005, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0014, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8005, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0023, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8004, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 0.0024, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8005, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8005, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8005, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0025, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
 {"seed": 8006, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
 {"seed": 8006, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
 {"seed": 8006, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0022, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
-{"seed": 8007, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0014, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8007, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0014, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8007, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0029, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8007, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0011, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8007, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0011, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8007, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0024, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/artifact_repo_listing.json b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/artifact_repo_listing.json
index 99572004cc6cb602f33743e8e47c4177ebe1434d..dcfe8cd480062af855a574614c37aa4e70d4ee21 100644
--- a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/artifact_repo_listing.json
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/artifact_repo_listing.json
@@ -1,6 +1,6 @@
 {
-  "repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
-  "status": "skipped_local_only",
+  "repo_id": "adithya9903/polyguard-openenv-training-3b-artifacts",
+  "status": "error",
   "files": [],
-  "error": ""
+  "error": "(MaxRetryError('HTTPSConnectionPool(host=\\'huggingface.co\\', port=443): Max retries exceeded with url: /api/models/adithya9903/polyguard-openenv-training-3b-artifacts/tree/main?recursive=True&expand=False (Caused by NameResolutionError(\"HTTPSConnection(host=\\'huggingface.co\\', port=443): Failed to resolve \\'huggingface.co\\' ([Errno 8] nodename nor servname provided, or not known)\"))'), '(Request ID: e2bfdc8f-d828-47fb-88e5-d9e657891fc3)')"
 }
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/basic_llm_vs_polyguard_report.json b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/basic_llm_vs_polyguard_report.json
index 5c5e60b456dcf60eb577b0bc1ace243e64706b41..9b120712be826a1d61d0638a2d6fa752684d1563 100644
--- a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/basic_llm_vs_polyguard_report.json
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/basic_llm_vs_polyguard_report.json
@@ -16,7 +16,7 @@
     "basic_llm": {
       "episodes": 8,
       "avg_reward": 0.762,
-      "avg_latency_seconds": 0.0039,
+      "avg_latency_seconds": 0.004,
       "legality_rate": 1.0,
       "exploit_or_failure_rate": 0.25,
       "candidate_diversity": 1
@@ -24,7 +24,7 @@
     "sft_policy": {
       "episodes": 8,
       "avg_reward": 0.818,
-      "avg_latency_seconds": 0.0013,
+      "avg_latency_seconds": 0.0012,
       "legality_rate": 1.0,
       "exploit_or_failure_rate": 0.0,
       "candidate_diversity": 2
@@ -32,7 +32,7 @@
     "full_polyguard_pipeline": {
       "episodes": 8,
       "avg_reward": 0.805,
-      "avg_latency_seconds": 0.3852,
+      "avg_latency_seconds": 0.519,
       "legality_rate": 1.0,
       "exploit_or_failure_rate": 0.0,
       "candidate_diversity": 2
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/manifest.json b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/manifest.json
index 37ed640b9c257b54c6061eb0aa61029be64cbebb..1af4d87d30f0dd4625c00e16b875bcd952d16459 100644
--- a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/manifest.json
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/manifest.json
@@ -1,6 +1,6 @@
 {
   "status": "ok",
-  "generated_at_unix": 1777182606.439865,
+  "generated_at_unix": 1777188944.32916,
   "models": [
     {
       "run_id": "qwen-qwen2-5-0-5b-instruct",
@@ -93,9 +93,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "not_seen_in_status",
-        "grpo_postsave_inference": "not_seen_in_status",
-        "policy_ablation": "not_seen_in_status"
+        "grpo_training": "artifact_available",
+        "grpo_postsave_inference": "artifact_available",
+        "policy_ablation": "artifact_available"
       },
       "metrics": {
         "sft_train_loss": 0.15688225453009363,
@@ -107,33 +107,33 @@
         "sft_best_loss": 0.0022,
         "sft_last_token_accuracy": 0.9750415682792664,
         "sft_valid_rate": 1.0,
-        "sft_avg_env_reward": 0.762,
-        "sft_avg_latency_seconds": 2.748,
-        "grpo_avg_reward": null,
-        "grpo_history_steps": 0,
-        "grpo_valid_rate": null,
-        "grpo_avg_env_reward": null,
-        "grpo_avg_latency_seconds": null
+        "sft_avg_env_reward": 0.781,
+        "sft_avg_latency_seconds": 2.863,
+        "grpo_avg_reward": 0.767,
+        "grpo_history_steps": 2001,
+        "grpo_valid_rate": 1.0,
+        "grpo_avg_env_reward": 0.726,
+        "grpo_avg_latency_seconds": 3.681
       },
       "files": {
         "run_metadata.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/run_metadata.json",
         "sft_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_trl_run.json",
         "sft_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_history.json",
         "postsave_inference_sft.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/postsave_inference_sft.json",
-        "grpo_trl_run.json": "",
-        "grpo_history.json": "",
-        "grpo_reward_components.jsonl": "",
-        "postsave_inference_grpo.json": "",
-        "grpo_ablation_report.json": "",
+        "grpo_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_trl_run.json",
+        "grpo_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_history.json",
+        "grpo_reward_components.jsonl": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl",
+        "postsave_inference_grpo.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/postsave_inference_grpo.json",
+        "grpo_ablation_report.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_ablation_report.json",
         "error.json": ""
       }
     }
   ],
   "artifact_repo": {
-    "repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
-    "status": "skipped_local_only",
+    "repo_id": "adithya9903/polyguard-openenv-training-3b-artifacts",
+    "status": "error",
     "files": [],
-    "error": ""
+    "error": "(MaxRetryError('HTTPSConnectionPool(host=\\'huggingface.co\\', port=443): Max retries exceeded with url: /api/models/adithya9903/polyguard-openenv-training-3b-artifacts/tree/main?recursive=True&expand=False (Caused by NameResolutionError(\"HTTPSConnection(host=\\'huggingface.co\\', port=443): Failed to resolve \\'huggingface.co\\' ([Errno 8] nodename nor servname provided, or not known)\"))'), '(Request ID: e2bfdc8f-d828-47fb-88e5-d9e657891fc3)')"
   },
   "remote_snapshot_used": "",
   "training_space_status": {
@@ -189,12 +189,7 @@
     "Qwen 1.5B grpo_postsave_inference: not_seen_in_status",
     "Qwen 1.5B grpo_training: not_seen_in_status",
     "Qwen 1.5B policy_ablation: not_seen_in_status",
-    "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload",
-    "Qwen 3B grpo_history.json: pending_artifact_upload",
-    "Qwen 3B grpo_postsave_inference: not_seen_in_status",
-    "Qwen 3B grpo_training: not_seen_in_status",
-    "Qwen 3B policy_ablation: not_seen_in_status",
-    "Qwen 3B postsave_inference_grpo.json: pending_artifact_upload"
+    "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload"
   ],
   "reward_validation_errors": [],
   "primary_judge": "PolyGuard verifier/reward system"
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/policy_ablation_report.json b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/policy_ablation_report.json
index 17f42d1ba8e5ed4aaf91fc331e9057d45b539b10..1f7ff7041000e91dba36a272071c39960c890883 100644
--- a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/policy_ablation_report.json
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/policy_ablation_report.json
@@ -146,5 +146,5 @@
       }
     }
   },
-  "source": "/Users/daver/Desktop/Meta_Pytorch_OpenEnv_Scaler/polyguard-rl/outputs/reports/grpo_ablation_report.json"
+  "source": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_ablation_report.json"
 }
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/availability.json b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/availability.json
index c2b2f0d86ff434e9f0ecf69d3f4d2ecd250fbd9b..67d23756a9049241ad549bc6a18357006d41c39e 100644
--- a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/availability.json
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/availability.json
@@ -2,9 +2,9 @@
   "statuses": {
     "sft_training": "artifact_available",
     "sft_postsave_inference": "artifact_available",
-    "grpo_training": "not_seen_in_status",
-    "grpo_postsave_inference": "not_seen_in_status",
-    "policy_ablation": "not_seen_in_status"
+    "grpo_training": "artifact_available",
+    "grpo_postsave_inference": "artifact_available",
+    "policy_ablation": "artifact_available"
   },
   "metrics": {
     "sft_train_loss": 0.15688225453009363,
@@ -16,12 +16,12 @@
     "sft_best_loss": 0.0022,
     "sft_last_token_accuracy": 0.9750415682792664,
     "sft_valid_rate": 1.0,
-    "sft_avg_env_reward": 0.762,
-    "sft_avg_latency_seconds": 2.748,
-    "grpo_avg_reward": null,
-    "grpo_history_steps": 0,
-    "grpo_valid_rate": null,
-    "grpo_avg_env_reward": null,
-    "grpo_avg_latency_seconds": null
+    "sft_avg_env_reward": 0.781,
+    "sft_avg_latency_seconds": 2.863,
+    "grpo_avg_reward": 0.767,
+    "grpo_history_steps": 2001,
+    "grpo_valid_rate": 1.0,
+    "grpo_avg_env_reward": 0.726,
+    "grpo_avg_latency_seconds": 3.681
   }
 }
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/grpo_ablation_report.json b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/grpo_ablation_report.json
new file mode 100644
index 0000000000000000000000000000000000000000..89d5d32978be7e468119b45142923322586f281c
--- /dev/null
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/grpo_ablation_report.json
@@ -0,0 +1,149 @@
+{
+  "status": "ok",
+  "ablations": {
+    "bandit_only": {
+      "avg_reward": 0.779625,
+      "legality_rate": 1.0,
+      "severe_violation_rate": 0.0,
+      "abstention_rate": 0.0,
+      "avg_episode_length": 2.8125,
+      "success_rate": 0.0,
+      "avg_burden_delta": 0.0,
+      "avg_safety_delta": 0.483125,
+      "avg_dosing_quality": 0.75,
+      "avg_process_fidelity": 0.9056250000000008,
+      "exploit_detection_count": 2.0,
+      "timeout_rate": 0.0,
+      "failure_visible_rate": 0.0625,
+      "avg_invalid_actions": 0.0625,
+      "reward_columns": {
+        "format_compliance_score": 0.9989999999999996,
+        "candidate_alignment_score": 0.9989999999999996,
+        "legality_score": 0.9989999999999996,
+        "safety_delta_score": 0.483125,
+        "burden_improvement_score": 0.5,
+        "disease_stability_score": 0.8999999999999995,
+        "dosing_quality_score": 0.75,
+        "abstention_quality_score": 0.5600000000000002,
+        "efficiency_score": 0.5855625,
+        "process_fidelity_score": 0.9056250000000008,
+        "explanation_grounding_score": 0.8000000000000004,
+        "anti_cheat_score": 0.9366249999999997,
+        "uncertainty_calibration_score": 0.8531250000000004
+      },
+      "primary_reward_channels": {
+        "safety_legality": 0.9469062499999998,
+        "clinical_improvement": 0.6273749999999997,
+        "dosing_quality": 0.6550000000000001,
+        "process_integrity": 0.8225937500000001
+      },
+      "policy_stack": "bandit-only",
+      "failure_mining": {
+        "total_rows": 32,
+        "failure_rows": 2,
+        "top_failure_reasons": [
+          {
+            "reason": "repeated_action_loop",
+            "count": 2
+          }
+        ]
+      }
+    },
+    "llm_only": {
+      "avg_reward": 0.7723913043478261,
+      "legality_rate": 1.0,
+      "severe_violation_rate": 0.0,
+      "abstention_rate": 0.0,
+      "avg_episode_length": 1.9565217391304348,
+      "success_rate": 0.0,
+      "avg_burden_delta": 0.0,
+      "avg_safety_delta": 0.4882608695652174,
+      "avg_dosing_quality": 0.75,
+      "avg_process_fidelity": 0.9000000000000005,
+      "exploit_detection_count": 7.0,
+      "timeout_rate": 0.0,
+      "failure_visible_rate": 0.30434782608695654,
+      "avg_invalid_actions": 0.30434782608695654,
+      "reward_columns": {
+        "format_compliance_score": 0.9989999999999999,
+        "candidate_alignment_score": 0.9989999999999999,
+        "legality_score": 0.9989999999999999,
+        "safety_delta_score": 0.4882608695652174,
+        "burden_improvement_score": 0.5,
+        "disease_stability_score": 0.8999999999999998,
+        "dosing_quality_score": 0.75,
+        "abstention_quality_score": 0.5600000000000004,
+        "efficiency_score": 0.7027826086956522,
+        "process_fidelity_score": 0.9000000000000005,
+        "explanation_grounding_score": 0.8000000000000003,
+        "anti_cheat_score": 0.6952608695652175,
+        "uncertainty_calibration_score": 0.8482608695652176
+      },
+      "primary_reward_channels": {
+        "safety_legality": 0.8853478260869562,
+        "clinical_improvement": 0.6290869565217388,
+        "dosing_quality": 0.6549999999999998,
+        "process_integrity": 0.8504782608695656
+      },
+      "policy_stack": "llm-only",
+      "failure_mining": {
+        "total_rows": 23,
+        "failure_rows": 7,
+        "top_failure_reasons": [
+          {
+            "reason": "repeated_action_loop",
+            "count": 7
+          }
+        ]
+      }
+    },
+    "llm_bandit": {
+      "avg_reward": 0.7647391304347826,
+      "legality_rate": 1.0,
+      "severe_violation_rate": 0.0,
+      "abstention_rate": 0.0,
+      "avg_episode_length": 1.9565217391304348,
+      "success_rate": 0.0,
+      "avg_burden_delta": 0.0,
+      "avg_safety_delta": 0.48982608695652174,
+      "avg_dosing_quality": 0.717391304347826,
+      "avg_process_fidelity": 0.9000000000000005,
+      "exploit_detection_count": 7.0,
+      "timeout_rate": 0.0,
+      "failure_visible_rate": 0.30434782608695654,
+      "avg_invalid_actions": 0.30434782608695654,
+      "reward_columns": {
+        "format_compliance_score": 0.9989999999999999,
+        "candidate_alignment_score": 0.9989999999999999,
+        "legality_score": 0.9989999999999999,
+        "safety_delta_score": 0.48982608695652174,
+        "burden_improvement_score": 0.5043478260869565,
+        "disease_stability_score": 0.8582608695652173,
+        "dosing_quality_score": 0.717391304347826,
+        "abstention_quality_score": 0.5600000000000004,
+        "efficiency_score": 0.7027826086956522,
+        "process_fidelity_score": 0.9000000000000005,
+        "explanation_grounding_score": 0.8000000000000003,
+        "anti_cheat_score": 0.6952608695652175,
+        "uncertainty_calibration_score": 0.8126086956521739
+      },
+      "primary_reward_channels": {
+        "safety_legality": 0.8765217391304347,
+        "clinical_improvement": 0.6171739130434781,
+        "dosing_quality": 0.6386956521739129,
+        "process_integrity": 0.8504782608695656
+      },
+      "policy_stack": "llm+bandit",
+      "failure_mining": {
+        "total_rows": 23,
+        "failure_rows": 7,
+        "top_failure_reasons": [
+          {
+            "reason": "repeated_action_loop",
+            "count": 7
+          }
+        ]
+      }
+    }
+  }
+}
\ No newline at end of file
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/grpo_history.json b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/grpo_history.json
new file mode 100644
index 0000000000000000000000000000000000000000..23c0af97fc904ab4981b509b57116fba4289a289
--- /dev/null
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/grpo_history.json
@@ -0,0 +1,50011 @@
+[
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0,
+    "learning_rate": 1e-06,
+    "num_tokens": 366.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.0,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0005,
+    "step": 1
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0,
+    "learning_rate": 9.995e-07,
+    "num_tokens": 732.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.0,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.001,
+    "step": 2
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8386753797531128,
+    "learning_rate": 9.989999999999999e-07,
+    "num_tokens": 1628.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0015,
+    "step": 3
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008644626359455287,
+    "learning_rate": 9.985e-07,
+    "num_tokens": 1994.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.515835851430893e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.002,
+    "step": 4
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.6266300678253174,
+    "learning_rate": 9.98e-07,
+    "num_tokens": 2890.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7999999523162842,
+    "rewards/environment_reward_verifier/std": 0.04949747025966644,
+    "reward": 0.7999999523162842,
+    "reward_std": 0.04949747025966644,
+    "kl": 1.1774711310863495e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0025,
+    "step": 5
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7592867612838745,
+    "learning_rate": 9.975e-07,
+    "num_tokens": 3786.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.082305192947388e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.003,
+    "step": 6
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013875153381377459,
+    "learning_rate": 9.97e-07,
+    "num_tokens": 4152.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.19076532125473e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0035,
+    "step": 7
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008181582088582218,
+    "learning_rate": 9.965e-07,
+    "num_tokens": 4518.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6560388505458832e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.004,
+    "step": 8
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7382595539093018,
+    "learning_rate": 9.959999999999999e-07,
+    "num_tokens": 5414.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 1.3813376426696777e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0045,
+    "step": 9
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9728567004203796,
+    "learning_rate": 9.955e-07,
+    "num_tokens": 6310.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.846500039100647,
+    "rewards/environment_reward_verifier/std": 0.014849219471216202,
+    "reward": 0.846500039100647,
+    "reward_std": 0.014849220402538776,
+    "kl": 5.137734115123749e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.005,
+    "step": 10
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.5461432337760925,
+    "learning_rate": 9.95e-07,
+    "num_tokens": 7206.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 1.668650656938553e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0055,
+    "step": 11
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001112893340177834,
+    "learning_rate": 9.945e-07,
+    "num_tokens": 7572.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.109647125005722e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.006,
+    "step": 12
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": NaN,
+    "learning_rate": 9.94e-07,
+    "num_tokens": 8468.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.0393170416355133e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0065,
+    "step": 13
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010866466909646988,
+    "learning_rate": 9.94e-07,
+    "num_tokens": 8834.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.441702574491501e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.007,
+    "step": 14
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001017165370285511,
+    "learning_rate": 9.935e-07,
+    "num_tokens": 9730.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.716303035616875e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0075,
+    "step": 15
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6911739706993103,
+    "learning_rate": 9.929999999999999e-07,
+    "num_tokens": 10626.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 1.7061829566955566e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.008,
+    "step": 16
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7382009029388428,
+    "learning_rate": 9.925e-07,
+    "num_tokens": 11522.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.824999988079071,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.824999988079071,
+    "reward_std": 0.011313731782138348,
+    "kl": 1.5362165868282318e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0085,
+    "step": 17
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": NaN,
+    "learning_rate": 9.92e-07,
+    "num_tokens": 12418.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 2.619996666908264e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.009,
+    "step": 18
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008886535069905221,
+    "learning_rate": 9.92e-07,
+    "num_tokens": 12784.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.30507755279541e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0095,
+    "step": 19
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7491036057472229,
+    "learning_rate": 9.915e-07,
+    "num_tokens": 13680.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 3.322027623653412e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.01,
+    "step": 20
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5928551554679871,
+    "learning_rate": 9.91e-07,
+    "num_tokens": 14576.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 2.601929008960724e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0105,
+    "step": 21
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005458745290525258,
+    "learning_rate": 9.905e-07,
+    "num_tokens": 15472.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.315826714038849e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.011,
+    "step": 22
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000569008057937026,
+    "learning_rate": 9.9e-07,
+    "num_tokens": 15838.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.1721236407756805e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0115,
+    "step": 23
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8848241567611694,
+    "learning_rate": 9.895e-07,
+    "num_tokens": 16734.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 2.0731240510940552e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.012,
+    "step": 24
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9575281143188477,
+    "learning_rate": 9.89e-07,
+    "num_tokens": 17630.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.5221146643161774e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0125,
+    "step": 25
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004248635668773204,
+    "learning_rate": 9.885e-07,
+    "num_tokens": 17996.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.887790858745575e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.013,
+    "step": 26
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009508877992630005,
+    "learning_rate": 9.88e-07,
+    "num_tokens": 18362.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8277747333049774e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0135,
+    "step": 27
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8627551198005676,
+    "learning_rate": 9.875e-07,
+    "num_tokens": 19258.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 5.311518907546997e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.014,
+    "step": 28
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009427251643501222,
+    "learning_rate": 9.87e-07,
+    "num_tokens": 20154.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2608786821365356e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0145,
+    "step": 29
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006769588799215853,
+    "learning_rate": 9.865e-07,
+    "num_tokens": 20520.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2307969629764557e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.015,
+    "step": 30
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7637265920639038,
+    "learning_rate": 9.86e-07,
+    "num_tokens": 21416.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 2.9818154871463776e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0155,
+    "step": 31
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008596409461461008,
+    "learning_rate": 9.855e-07,
+    "num_tokens": 22312.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7940000295639038,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7940000295639038,
+    "reward_std": 0.0,
+    "kl": 2.1715648472309113e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.016,
+    "step": 32
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013101330259814858,
+    "learning_rate": 9.849999999999999e-07,
+    "num_tokens": 22678.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.461260348558426e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0165,
+    "step": 33
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009030819055624306,
+    "learning_rate": 9.845e-07,
+    "num_tokens": 23044.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.9451755583286285e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.017,
+    "step": 34
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.14603713154792786,
+    "learning_rate": 9.84e-07,
+    "num_tokens": 23940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 0.0006279908120632172,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0175,
+    "step": 35
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9210644364356995,
+    "learning_rate": 9.835e-07,
+    "num_tokens": 24836.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.36403027176857e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.018,
+    "step": 36
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001894401852041483,
+    "learning_rate": 9.83e-07,
+    "num_tokens": 25202.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.968380719423294e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0185,
+    "step": 37
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002542809583246708,
+    "learning_rate": 9.825e-07,
+    "num_tokens": 25568.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.4018571972846985e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.019,
+    "step": 38
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009300168021582067,
+    "learning_rate": 9.819999999999999e-07,
+    "num_tokens": 25934.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.014877438545227e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0195,
+    "step": 39
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.601282000541687,
+    "learning_rate": 9.815e-07,
+    "num_tokens": 26830.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 1.4821067452430725e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.02,
+    "step": 40
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005840946105308831,
+    "learning_rate": 9.81e-07,
+    "num_tokens": 27726.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.229904592037201e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0205,
+    "step": 41
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8803837299346924,
+    "learning_rate": 9.805e-07,
+    "num_tokens": 28622.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.692414611577988e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.021,
+    "step": 42
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003636215114966035,
+    "learning_rate": 9.8e-07,
+    "num_tokens": 29518.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 5.9694983065128326e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0215,
+    "step": 43
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001083171577192843,
+    "learning_rate": 9.795e-07,
+    "num_tokens": 29884.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.22023406624794e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.022,
+    "step": 44
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0029561789706349373,
+    "learning_rate": 9.789999999999999e-07,
+    "num_tokens": 30250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5513581931591034e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0225,
+    "step": 45
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8178843259811401,
+    "learning_rate": 9.785e-07,
+    "num_tokens": 31146.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 2.0386651158332825e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.023,
+    "step": 46
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7111838459968567,
+    "learning_rate": 9.78e-07,
+    "num_tokens": 32042.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 1.805834472179413e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0235,
+    "step": 47
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020604038145393133,
+    "learning_rate": 9.775e-07,
+    "num_tokens": 32938.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.199426621198654e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.024,
+    "step": 48
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1733801364898682,
+    "learning_rate": 9.77e-07,
+    "num_tokens": 33834.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8790000081062317,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8790000081062317,
+    "reward_std": 0.0014141954015940428,
+    "kl": 2.4205073714256287e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0245,
+    "step": 49
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007422183407470584,
+    "learning_rate": 9.765e-07,
+    "num_tokens": 34200.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0121224224567413e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.025,
+    "step": 50
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.12367633730173111,
+    "learning_rate": 9.759999999999998e-07,
+    "num_tokens": 35096.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8349999785423279,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8349999785423279,
+    "reward_std": 0.0,
+    "kl": 0.00035975873470306396,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0255,
+    "step": 51
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1185871362686157,
+    "learning_rate": 9.755e-07,
+    "num_tokens": 35992.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.8584694266319275e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.026,
+    "step": 52
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": NaN,
+    "learning_rate": 9.75e-07,
+    "num_tokens": 36888.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0005854479968547821,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0265,
+    "step": 53
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010273786028847098,
+    "learning_rate": 9.75e-07,
+    "num_tokens": 37254.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.692973405122757e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.027,
+    "step": 54
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011759226908907294,
+    "learning_rate": 9.745e-07,
+    "num_tokens": 37620.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.308484494686127e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0275,
+    "step": 55
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007389633101411164,
+    "learning_rate": 9.74e-07,
+    "num_tokens": 37986.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.300366759300232e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.028,
+    "step": 56
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005277986056171358,
+    "learning_rate": 9.735e-07,
+    "num_tokens": 38882.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 1.1188909411430359e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0285,
+    "step": 57
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009752270416356623,
+    "learning_rate": 9.729999999999998e-07,
+    "num_tokens": 39778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 3.2201409339904785e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.029,
+    "step": 58
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002292782301083207,
+    "learning_rate": 9.725e-07,
+    "num_tokens": 40144.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.730653017759323e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0295,
+    "step": 59
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015361111145466566,
+    "learning_rate": 9.72e-07,
+    "num_tokens": 40510.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.377216100692749e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.03,
+    "step": 60
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001204590662382543,
+    "learning_rate": 9.715e-07,
+    "num_tokens": 40876.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9032118618488312e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0305,
+    "step": 61
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6760213971138,
+    "learning_rate": 9.709999999999999e-07,
+    "num_tokens": 41772.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.0381837822496891,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.0381837822496891,
+    "kl": 8.327886462211609e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.031,
+    "step": 62
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013389871455729008,
+    "learning_rate": 9.705e-07,
+    "num_tokens": 42668.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 3.366731107234955e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0315,
+    "step": 63
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007441174238920212,
+    "learning_rate": 9.7e-07,
+    "num_tokens": 43564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 9.872950613498688e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.032,
+    "step": 64
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5267499685287476,
+    "learning_rate": 9.695e-07,
+    "num_tokens": 44460.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 1.86040997505188e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0325,
+    "step": 65
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009887129999697208,
+    "learning_rate": 9.69e-07,
+    "num_tokens": 45356.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 4.1836872696876526e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.033,
+    "step": 66
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005825233645737171,
+    "learning_rate": 9.685e-07,
+    "num_tokens": 45722.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.702557533979416e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0335,
+    "step": 67
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005127235781401396,
+    "learning_rate": 9.679999999999999e-07,
+    "num_tokens": 46088.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.5092624127864838e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.034,
+    "step": 68
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001396226929500699,
+    "learning_rate": 9.675e-07,
+    "num_tokens": 46454.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.394686013460159e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0345,
+    "step": 69
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8930999636650085,
+    "learning_rate": 9.67e-07,
+    "num_tokens": 47350.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.071129322052002e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.035,
+    "step": 70
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.45665115118026733,
+    "learning_rate": 9.665e-07,
+    "num_tokens": 48246.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5920000076293945,
+    "rewards/environment_reward_verifier/std": 0.30122748017311096,
+    "reward": 0.5920000076293945,
+    "reward_std": 0.30122748017311096,
+    "kl": 1.1058524250984192e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0355,
+    "step": 71
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015513673424720764,
+    "learning_rate": 9.66e-07,
+    "num_tokens": 48612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.106216460466385e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.036,
+    "step": 72
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016105485847219825,
+    "learning_rate": 9.655e-07,
+    "num_tokens": 49508.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.196112811565399e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0365,
+    "step": 73
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.12389198690652847,
+    "learning_rate": 9.649999999999999e-07,
+    "num_tokens": 50404.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 0.0006226431578397751,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.037,
+    "step": 74
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000441992306150496,
+    "learning_rate": 9.645e-07,
+    "num_tokens": 51300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 1.2840144336223602e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0375,
+    "step": 75
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.583307147026062,
+    "learning_rate": 9.64e-07,
+    "num_tokens": 52196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 1.4536082744598389e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.038,
+    "step": 76
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5040392875671387,
+    "learning_rate": 9.635e-07,
+    "num_tokens": 53092.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 1.9342638552188873e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0385,
+    "step": 77
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007017228053882718,
+    "learning_rate": 9.63e-07,
+    "num_tokens": 53458.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.330223262310028e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.039,
+    "step": 78
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005833606119267642,
+    "learning_rate": 9.624999999999999e-07,
+    "num_tokens": 53824.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0285136997699738e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0395,
+    "step": 79
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016466780798509717,
+    "learning_rate": 9.619999999999999e-07,
+    "num_tokens": 54190.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3215077817440033e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.04,
+    "step": 80
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005939177935943007,
+    "learning_rate": 9.615e-07,
+    "num_tokens": 54556.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0177103579044342e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0405,
+    "step": 81
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015536571154370904,
+    "learning_rate": 9.61e-07,
+    "num_tokens": 55452.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 2.1132640540599823e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.041,
+    "step": 82
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010748868808150291,
+    "learning_rate": 9.605e-07,
+    "num_tokens": 56348.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.773959517478943e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0415,
+    "step": 83
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009355363436043262,
+    "learning_rate": 9.6e-07,
+    "num_tokens": 57244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 2.8561800718307495e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.042,
+    "step": 84
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005516069359146059,
+    "learning_rate": 9.594999999999999e-07,
+    "num_tokens": 58140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8349999785423279,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8349999785423279,
+    "reward_std": 0.0,
+    "kl": 1.7962418496608734e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0425,
+    "step": 85
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0018359065288677812,
+    "learning_rate": 9.589999999999998e-07,
+    "num_tokens": 58506.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.631614476442337e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.043,
+    "step": 86
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003975807689130306,
+    "learning_rate": 9.585e-07,
+    "num_tokens": 58872.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.361491978168488e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0435,
+    "step": 87
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010325579205527902,
+    "learning_rate": 9.58e-07,
+    "num_tokens": 59238.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.5804306864738464e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.044,
+    "step": 88
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6955918669700623,
+    "learning_rate": 9.575e-07,
+    "num_tokens": 60134.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 3.2967887818813324e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0445,
+    "step": 89
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.01571866311132908,
+    "learning_rate": 9.57e-07,
+    "num_tokens": 61030.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.341654807329178e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.045,
+    "step": 90
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019674592185765505,
+    "learning_rate": 9.565e-07,
+    "num_tokens": 61396.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.4650398194789886e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0455,
+    "step": 91
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00046162621583789587,
+    "learning_rate": 9.559999999999998e-07,
+    "num_tokens": 62292.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7433037757873535e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.046,
+    "step": 92
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9690912961959839,
+    "learning_rate": 9.555e-07,
+    "num_tokens": 63188.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.0381837822496891,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.0381837822496891,
+    "kl": 2.886541187763214e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0465,
+    "step": 93
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011616102419793606,
+    "learning_rate": 9.55e-07,
+    "num_tokens": 63554.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8302893042564392e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.047,
+    "step": 94
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010602263500913978,
+    "learning_rate": 9.545e-07,
+    "num_tokens": 63920.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.1570903956890106e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0475,
+    "step": 95
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9153140187263489,
+    "learning_rate": 9.539999999999999e-07,
+    "num_tokens": 64816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 6.788689643144608e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.048,
+    "step": 96
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.45417484641075134,
+    "learning_rate": 9.535e-07,
+    "num_tokens": 65712.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 1.2744218111038208e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0485,
+    "step": 97
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015867383917793632,
+    "learning_rate": 9.529999999999999e-07,
+    "num_tokens": 66078.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.906991332769394e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.049,
+    "step": 98
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007671258063055575,
+    "learning_rate": 9.525e-07,
+    "num_tokens": 66444.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7447007596492767e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0495,
+    "step": 99
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006462362944148481,
+    "learning_rate": 9.52e-07,
+    "num_tokens": 66810.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.849886029958725e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.05,
+    "step": 100
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.007701369468122721,
+    "learning_rate": 9.515e-07,
+    "num_tokens": 67176.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.422136306762695e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0505,
+    "step": 101
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6700197458267212,
+    "learning_rate": 9.509999999999999e-07,
+    "num_tokens": 68072.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.818368375301361e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.051,
+    "step": 102
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.66556453704834,
+    "learning_rate": 9.504999999999999e-07,
+    "num_tokens": 68968.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8345000147819519,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8345000147819519,
+    "reward_std": 0.030405579134821892,
+    "kl": 5.388539284467697e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0515,
+    "step": 103
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00044317645370028913,
+    "learning_rate": 9.499999999999999e-07,
+    "num_tokens": 69864.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 1.7177313566207886e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.052,
+    "step": 104
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.5687395334243774,
+    "learning_rate": 9.495e-07,
+    "num_tokens": 70760.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 1.3083219528198242e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0525,
+    "step": 105
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": NaN,
+    "learning_rate": 9.489999999999999e-07,
+    "num_tokens": 71656.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 0.0011830152943730354,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.053,
+    "step": 106
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.01510967593640089,
+    "learning_rate": 9.489999999999999e-07,
+    "num_tokens": 72552.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.878000020980835,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.878000020980835,
+    "reward_std": 0.0,
+    "kl": 9.882543236017227e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0535,
+    "step": 107
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004268075339496136,
+    "learning_rate": 9.485e-07,
+    "num_tokens": 72918.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.635075598955154e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.054,
+    "step": 108
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8328304886817932,
+    "learning_rate": 9.479999999999999e-07,
+    "num_tokens": 73814.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 2.2052787244319916e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0545,
+    "step": 109
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.728537380695343,
+    "learning_rate": 9.474999999999999e-07,
+    "num_tokens": 74710.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8174999952316284,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8174999952316284,
+    "reward_std": 0.014849262312054634,
+    "kl": 2.4109147489070892e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.055,
+    "step": 110
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9570010900497437,
+    "learning_rate": 9.469999999999999e-07,
+    "num_tokens": 75606.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8105000257492065,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8105000257492065,
+    "reward_std": 0.06434673070907593,
+    "kl": 4.696846008300781e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0555,
+    "step": 111
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002002199413254857,
+    "learning_rate": 9.465e-07,
+    "num_tokens": 75972.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.513189196586609e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.056,
+    "step": 112
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006786709418520331,
+    "learning_rate": 9.459999999999999e-07,
+    "num_tokens": 76868.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 2.574734389781952e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0565,
+    "step": 113
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.8540514707565308,
+    "learning_rate": 9.455e-07,
+    "num_tokens": 77764.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.012020829133689404,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.012020829133689404,
+    "kl": 2.0493753254413605e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.057,
+    "step": 114
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009922435274347663,
+    "learning_rate": 9.45e-07,
+    "num_tokens": 78130.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.318674862384796e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0575,
+    "step": 115
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007435118895955384,
+    "learning_rate": 9.444999999999999e-07,
+    "num_tokens": 79026.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.7647783756256104e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.058,
+    "step": 116
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00691739609465003,
+    "learning_rate": 9.439999999999999e-07,
+    "num_tokens": 79392.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.612468183040619e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0585,
+    "step": 117
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007686293101869524,
+    "learning_rate": 9.434999999999999e-07,
+    "num_tokens": 79758.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.6792677342891693e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.059,
+    "step": 118
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017928972374647856,
+    "learning_rate": 9.429999999999999e-07,
+    "num_tokens": 80124.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.409346729516983e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0595,
+    "step": 119
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005726952571421862,
+    "learning_rate": 9.425e-07,
+    "num_tokens": 81020.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 7.761642336845398e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.06,
+    "step": 120
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00040231458842754364,
+    "learning_rate": 9.419999999999999e-07,
+    "num_tokens": 81916.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 1.92299485206604e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0605,
+    "step": 121
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.852346658706665,
+    "learning_rate": 9.415e-07,
+    "num_tokens": 82812.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 1.8057413399219513e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.061,
+    "step": 122
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010437635937705636,
+    "learning_rate": 9.409999999999999e-07,
+    "num_tokens": 83708.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9762665033340454e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0615,
+    "step": 123
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": NaN,
+    "learning_rate": 9.404999999999999e-07,
+    "num_tokens": 84604.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.055154334753751755,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.055154334753751755,
+    "kl": 0.0007068756967782974,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.062,
+    "step": 124
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6010521650314331,
+    "learning_rate": 9.404999999999999e-07,
+    "num_tokens": 85500.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 1.6216188669204712e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0625,
+    "step": 125
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6753321886062622,
+    "learning_rate": 9.399999999999999e-07,
+    "num_tokens": 86396.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.6893801987171173e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.063,
+    "step": 126
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010537143098190427,
+    "learning_rate": 9.395e-07,
+    "num_tokens": 86762.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.888884723186493e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0635,
+    "step": 127
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5956679582595825,
+    "learning_rate": 9.389999999999999e-07,
+    "num_tokens": 87658.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.01555635966360569,
+    "kl": 6.039440631866455e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.064,
+    "step": 128
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013017355231568217,
+    "learning_rate": 9.385e-07,
+    "num_tokens": 88024.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.114024341106415e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0645,
+    "step": 129
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6261308789253235,
+    "learning_rate": 9.379999999999998e-07,
+    "num_tokens": 88920.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7904999852180481,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7904999852180481,
+    "reward_std": 0.037476640194654465,
+    "kl": 7.468275725841522e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.065,
+    "step": 130
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00029322251793928444,
+    "learning_rate": 9.374999999999999e-07,
+    "num_tokens": 89816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 1.0502524673938751e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0655,
+    "step": 131
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007472799625247717,
+    "learning_rate": 9.37e-07,
+    "num_tokens": 90182.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.8768012523651123e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.066,
+    "step": 132
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004956374177709222,
+    "learning_rate": 9.365e-07,
+    "num_tokens": 90548.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.917034387588501e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0665,
+    "step": 133
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000760928844101727,
+    "learning_rate": 9.36e-07,
+    "num_tokens": 90914.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.449060022830963e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.067,
+    "step": 134
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017298860475420952,
+    "learning_rate": 9.355e-07,
+    "num_tokens": 91280.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.187878221273422e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0675,
+    "step": 135
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9310314655303955,
+    "learning_rate": 9.35e-07,
+    "num_tokens": 92176.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.039597976952791214,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.039597976952791214,
+    "kl": 2.9511749744415283e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.068,
+    "step": 136
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5498940944671631,
+    "learning_rate": 9.344999999999999e-07,
+    "num_tokens": 93072.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 1.553259789943695e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0685,
+    "step": 137
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8820034265518188,
+    "learning_rate": 9.34e-07,
+    "num_tokens": 93968.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.5233253836631775e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.069,
+    "step": 138
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006268341676332057,
+    "learning_rate": 9.334999999999999e-07,
+    "num_tokens": 94334.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.2475218176841736e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0695,
+    "step": 139
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7416382431983948,
+    "learning_rate": 9.33e-07,
+    "num_tokens": 95230.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8240000009536743,
+    "rewards/environment_reward_verifier/std": 0.015556317754089832,
+    "reward": 0.8240000009536743,
+    "reward_std": 0.015556317754089832,
+    "kl": 2.3412518203258514e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.07,
+    "step": 140
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4844658374786377,
+    "learning_rate": 9.325e-07,
+    "num_tokens": 96126.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8339999914169312,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8339999914169312,
+    "reward_std": 0.0014141954015940428,
+    "kl": 7.013790309429169e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0705,
+    "step": 141
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8294029235839844,
+    "learning_rate": 9.32e-07,
+    "num_tokens": 97022.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8355000019073486,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8355000019073486,
+    "reward_std": 0.030405579134821892,
+    "kl": 1.283455640077591e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.071,
+    "step": 142
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005975551321171224,
+    "learning_rate": 9.315e-07,
+    "num_tokens": 97388.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9866973161697388e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0715,
+    "step": 143
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004532081075012684,
+    "learning_rate": 9.31e-07,
+    "num_tokens": 97754.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.086162567138672e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.072,
+    "step": 144
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003843473386950791,
+    "learning_rate": 9.304999999999999e-07,
+    "num_tokens": 98120.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.2605907917022705e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0725,
+    "step": 145
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0036340798251330853,
+    "learning_rate": 9.3e-07,
+    "num_tokens": 98486.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.931608706712723e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.073,
+    "step": 146
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00095866754418239,
+    "learning_rate": 9.295e-07,
+    "num_tokens": 98852.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.259442746639252e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0735,
+    "step": 147
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000992271350696683,
+    "learning_rate": 9.29e-07,
+    "num_tokens": 99218.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.275942385196686e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.074,
+    "step": 148
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008247334626503289,
+    "learning_rate": 9.285e-07,
+    "num_tokens": 99584.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.442727029323578e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0745,
+    "step": 149
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.611395537853241,
+    "learning_rate": 9.28e-07,
+    "num_tokens": 100480.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.016263457015156746,
+    "kl": 1.0479241609573364e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.075,
+    "step": 150
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008024791022762656,
+    "learning_rate": 9.274999999999999e-07,
+    "num_tokens": 100846.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.54213809967041e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0755,
+    "step": 151
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008570189820602536,
+    "learning_rate": 9.27e-07,
+    "num_tokens": 101212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.1021423637866974e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.076,
+    "step": 152
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 6.0001912117004395,
+    "learning_rate": 9.264999999999999e-07,
+    "num_tokens": 102108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8125,
+    "rewards/environment_reward_verifier/std": 0.01060659158974886,
+    "reward": 0.8125,
+    "reward_std": 0.01060659158974886,
+    "kl": 6.32014125585556e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0765,
+    "step": 153
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7252357602119446,
+    "learning_rate": 9.26e-07,
+    "num_tokens": 103004.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.2156164050102234e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.077,
+    "step": 154
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008979981648735702,
+    "learning_rate": 9.255e-07,
+    "num_tokens": 103370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.1005201637744904e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0775,
+    "step": 155
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010244681034237146,
+    "learning_rate": 9.25e-07,
+    "num_tokens": 103736.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.6143697798252106e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.078,
+    "step": 156
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7005264759063721,
+    "learning_rate": 9.244999999999999e-07,
+    "num_tokens": 104632.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5975000262260437,
+    "rewards/environment_reward_verifier/std": 0.3047630488872528,
+    "reward": 0.5975000262260437,
+    "reward_std": 0.3047630488872528,
+    "kl": 2.7914531528949738e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0785,
+    "step": 157
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6544285416603088,
+    "learning_rate": 9.24e-07,
+    "num_tokens": 105528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.729496479034424e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.079,
+    "step": 158
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5623617768287659,
+    "learning_rate": 9.234999999999999e-07,
+    "num_tokens": 106424.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8289999961853027,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8289999961853027,
+    "reward_std": 0.0014141954015940428,
+    "kl": 2.0192936062812805e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0795,
+    "step": 159
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007258378900587559,
+    "learning_rate": 9.23e-07,
+    "num_tokens": 107320.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.202896237373352e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.08,
+    "step": 160
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0027602105401456356,
+    "learning_rate": 9.225e-07,
+    "num_tokens": 108216.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 7.052719593048096e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0805,
+    "step": 161
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.73163241147995,
+    "learning_rate": 9.22e-07,
+    "num_tokens": 109112.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 2.2308900952339172e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.081,
+    "step": 162
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011337499599903822,
+    "learning_rate": 9.215e-07,
+    "num_tokens": 109478.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.859695374965668e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0815,
+    "step": 163
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000912423012778163,
+    "learning_rate": 9.21e-07,
+    "num_tokens": 109844.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.218837082386017e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.082,
+    "step": 164
+  },
+  {
+    "loss": 0.0002,
+    "grad_norm": 8.715468406677246,
+    "learning_rate": 9.204999999999999e-07,
+    "num_tokens": 110740.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.004041045904159546,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0825,
+    "step": 165
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9052450656890869,
+    "learning_rate": 9.2e-07,
+    "num_tokens": 111636.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.215965211391449e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.083,
+    "step": 166
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003241814556531608,
+    "learning_rate": 9.194999999999999e-07,
+    "num_tokens": 112002.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.0592862963676453e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0835,
+    "step": 167
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2795896530151367,
+    "learning_rate": 9.19e-07,
+    "num_tokens": 112898.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 7.838010787963867e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.084,
+    "step": 168
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004557027714326978,
+    "learning_rate": 9.185e-07,
+    "num_tokens": 113794.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8230000138282776,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8230000138282776,
+    "reward_std": 0.0,
+    "kl": 2.0915642380714417e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0845,
+    "step": 169
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7115015387535095,
+    "learning_rate": 9.18e-07,
+    "num_tokens": 114690.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 3.168080002069473e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.085,
+    "step": 170
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009462831658311188,
+    "learning_rate": 9.174999999999999e-07,
+    "num_tokens": 115056.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.907550126314163e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0855,
+    "step": 171
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008878710796125233,
+    "learning_rate": 9.17e-07,
+    "num_tokens": 115422.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.062335938215256e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.086,
+    "step": 172
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8355982303619385,
+    "learning_rate": 9.164999999999999e-07,
+    "num_tokens": 116318.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 2.7638860046863556e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0865,
+    "step": 173
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008515037479810417,
+    "learning_rate": 9.16e-07,
+    "num_tokens": 116684.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.111641854047775e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.087,
+    "step": 174
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000702428980730474,
+    "learning_rate": 9.155e-07,
+    "num_tokens": 117580.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6394613087177277e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0875,
+    "step": 175
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007754422258585691,
+    "learning_rate": 9.15e-07,
+    "num_tokens": 118476.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 3.0298717319965363e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.088,
+    "step": 176
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7931095361709595,
+    "learning_rate": 9.145e-07,
+    "num_tokens": 119372.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.3398548364639282e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0885,
+    "step": 177
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012435466051101685,
+    "learning_rate": 9.14e-07,
+    "num_tokens": 120268.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.037097096443176e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.089,
+    "step": 178
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008868267759680748,
+    "learning_rate": 9.134999999999999e-07,
+    "num_tokens": 120634.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6998110115528107e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0895,
+    "step": 179
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7282891273498535,
+    "learning_rate": 9.13e-07,
+    "num_tokens": 121530.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.5174580514431e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.09,
+    "step": 180
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7231186628341675,
+    "learning_rate": 9.124999999999999e-07,
+    "num_tokens": 122426.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 1.848861575126648e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0905,
+    "step": 181
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001117244246415794,
+    "learning_rate": 9.12e-07,
+    "num_tokens": 122792.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.138743340969086e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.091,
+    "step": 182
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006556922453455627,
+    "learning_rate": 9.115e-07,
+    "num_tokens": 123688.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9136816263198853e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0915,
+    "step": 183
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000802351045422256,
+    "learning_rate": 9.109999999999999e-07,
+    "num_tokens": 124054.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.238752156496048e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.092,
+    "step": 184
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006063154432922602,
+    "learning_rate": 9.104999999999999e-07,
+    "num_tokens": 124420.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.0485371351242065e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0925,
+    "step": 185
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7436572313308716,
+    "learning_rate": 9.1e-07,
+    "num_tokens": 125316.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.107769250869751e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.093,
+    "step": 186
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014243351761251688,
+    "learning_rate": 9.094999999999999e-07,
+    "num_tokens": 126212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.3363310396671295e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0935,
+    "step": 187
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009731510654091835,
+    "learning_rate": 9.09e-07,
+    "num_tokens": 127108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 2.2524036467075348e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.094,
+    "step": 188
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008247564546763897,
+    "learning_rate": 9.085e-07,
+    "num_tokens": 127474.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.4750828742980957e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0945,
+    "step": 189
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.898916482925415,
+    "learning_rate": 9.08e-07,
+    "num_tokens": 128370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.03111271932721138,
+    "reward": 0.828000009059906,
+    "reward_std": 0.03111271932721138,
+    "kl": 2.9124319553375244e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.095,
+    "step": 190
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0022594723850488663,
+    "learning_rate": 9.074999999999999e-07,
+    "num_tokens": 128736.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.931740790605545e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0955,
+    "step": 191
+  },
+  {
+    "loss": 0.0002,
+    "grad_norm": 0.3122554123401642,
+    "learning_rate": 9.07e-07,
+    "num_tokens": 129632.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 0.005375564098358154,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.096,
+    "step": 192
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7383635640144348,
+    "learning_rate": 9.064999999999999e-07,
+    "num_tokens": 130528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 1.7085112631320953e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0965,
+    "step": 193
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009169039549306035,
+    "learning_rate": 9.06e-07,
+    "num_tokens": 130894.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7499161660671234e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.097,
+    "step": 194
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002207833109423518,
+    "learning_rate": 9.055e-07,
+    "num_tokens": 131790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 5.058012902736664e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0975,
+    "step": 195
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013476760359480977,
+    "learning_rate": 9.05e-07,
+    "num_tokens": 132156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.07582488656044e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.098,
+    "step": 196
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009443381568416953,
+    "learning_rate": 9.045e-07,
+    "num_tokens": 132522.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.524923861026764e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0985,
+    "step": 197
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008005110430531204,
+    "learning_rate": 9.039999999999999e-07,
+    "num_tokens": 133418.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.380049020051956e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.099,
+    "step": 198
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011344518279656768,
+    "learning_rate": 9.034999999999999e-07,
+    "num_tokens": 134314.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.630202263593674e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0995,
+    "step": 199
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.124922513961792,
+    "learning_rate": 9.03e-07,
+    "num_tokens": 135210.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 2.403371036052704e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1,
+    "step": 200
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.010462634265422821,
+    "learning_rate": 9.024999999999999e-07,
+    "num_tokens": 135576.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.151548147201538e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1005,
+    "step": 201
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4031621813774109,
+    "learning_rate": 9.02e-07,
+    "num_tokens": 136472.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 7.29784369468689e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.101,
+    "step": 202
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1457958221435547,
+    "learning_rate": 9.015e-07,
+    "num_tokens": 137368.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8125,
+    "rewards/environment_reward_verifier/std": 0.01060659158974886,
+    "reward": 0.8125,
+    "reward_std": 0.01060659158974886,
+    "kl": 7.96811655163765e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1015,
+    "step": 203
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.8547003865242004,
+    "learning_rate": 9.01e-07,
+    "num_tokens": 138264.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7669999599456787,
+    "rewards/environment_reward_verifier/std": 0.00424262834712863,
+    "reward": 0.7669999599456787,
+    "reward_std": 0.00424262834712863,
+    "kl": 4.733167588710785e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.102,
+    "step": 204
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010702295694500208,
+    "learning_rate": 9.004999999999999e-07,
+    "num_tokens": 139160.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8516165912151337e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1025,
+    "step": 205
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010671066120266914,
+    "learning_rate": 9e-07,
+    "num_tokens": 140056.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 2.7094967663288116e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.103,
+    "step": 206
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6986727714538574,
+    "learning_rate": 8.994999999999999e-07,
+    "num_tokens": 140952.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 2.9342249035835266e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1035,
+    "step": 207
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.793999433517456,
+    "learning_rate": 8.99e-07,
+    "num_tokens": 141848.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8004999756813049,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.8004999756813049,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.9208138585090637e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.104,
+    "step": 208
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8776720762252808,
+    "learning_rate": 8.985e-07,
+    "num_tokens": 142744.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.694409340620041e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1045,
+    "step": 209
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8799023628234863,
+    "learning_rate": 8.98e-07,
+    "num_tokens": 143640.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 3.313366323709488e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.105,
+    "step": 210
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004170483734924346,
+    "learning_rate": 8.974999999999999e-07,
+    "num_tokens": 144536.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2648833692073822e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1055,
+    "step": 211
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001837296411395073,
+    "learning_rate": 8.969999999999999e-07,
+    "num_tokens": 144902.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6456080377101898e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.106,
+    "step": 212
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008451686589978635,
+    "learning_rate": 8.964999999999999e-07,
+    "num_tokens": 145268.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.107171505689621e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1065,
+    "step": 213
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0017951726913452,
+    "learning_rate": 8.96e-07,
+    "num_tokens": 146164.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 2.7408823370933533e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.107,
+    "step": 214
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8755594491958618,
+    "learning_rate": 8.954999999999999e-07,
+    "num_tokens": 147060.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.390146255493164e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1075,
+    "step": 215
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005800517974421382,
+    "learning_rate": 8.95e-07,
+    "num_tokens": 147426.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.6012229025363922e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.108,
+    "step": 216
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007062573567964137,
+    "learning_rate": 8.945e-07,
+    "num_tokens": 147792.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.4564174711704254e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1085,
+    "step": 217
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003949970938265324,
+    "learning_rate": 8.939999999999999e-07,
+    "num_tokens": 148688.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.277564585208893e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.109,
+    "step": 218
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004211249761283398,
+    "learning_rate": 8.934999999999999e-07,
+    "num_tokens": 149054.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 0.00011921580880880356,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1095,
+    "step": 219
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019470448605716228,
+    "learning_rate": 8.93e-07,
+    "num_tokens": 149420.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.409812390804291e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.11,
+    "step": 220
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001696808380074799,
+    "learning_rate": 8.924999999999999e-07,
+    "num_tokens": 150316.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.481617361307144e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1105,
+    "step": 221
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008031058823689818,
+    "learning_rate": 8.92e-07,
+    "num_tokens": 150682.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.823770046234131e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.111,
+    "step": 222
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005426830030046403,
+    "learning_rate": 8.915e-07,
+    "num_tokens": 151048.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 8.190050721168518e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1115,
+    "step": 223
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7660623788833618,
+    "learning_rate": 8.91e-07,
+    "num_tokens": 151944.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8400000333786011,
+    "rewards/environment_reward_verifier/std": 0.056568533182144165,
+    "reward": 0.8400000333786011,
+    "reward_std": 0.056568533182144165,
+    "kl": 2.423767000436783e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.112,
+    "step": 224
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00114248541649431,
+    "learning_rate": 8.904999999999999e-07,
+    "num_tokens": 152310.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.911981523036957e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1125,
+    "step": 225
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010189404711127281,
+    "learning_rate": 8.9e-07,
+    "num_tokens": 153206.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7940000295639038,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7940000295639038,
+    "reward_std": 0.0,
+    "kl": 3.969017416238785e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.113,
+    "step": 226
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009496210259385407,
+    "learning_rate": 8.894999999999999e-07,
+    "num_tokens": 154102.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 3.453809767961502e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1135,
+    "step": 227
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009968357626348734,
+    "learning_rate": 8.89e-07,
+    "num_tokens": 154468.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.2302771210670471e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.114,
+    "step": 228
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009216134203597903,
+    "learning_rate": 8.884999999999999e-07,
+    "num_tokens": 154834.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4216249585151672e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1145,
+    "step": 229
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013800781453028321,
+    "learning_rate": 8.88e-07,
+    "num_tokens": 155200.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.5048614740371704e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.115,
+    "step": 230
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004977535456418991,
+    "learning_rate": 8.874999999999999e-07,
+    "num_tokens": 155566.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.366932600736618e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1155,
+    "step": 231
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6765887141227722,
+    "learning_rate": 8.869999999999999e-07,
+    "num_tokens": 156462.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8345000147819519,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8345000147819519,
+    "reward_std": 0.030405579134821892,
+    "kl": 2.278340980410576e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.116,
+    "step": 232
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009554218268021941,
+    "learning_rate": 8.864999999999999e-07,
+    "num_tokens": 156828.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.304945468902588e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1165,
+    "step": 233
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004711175861302763,
+    "learning_rate": 8.86e-07,
+    "num_tokens": 157724.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8140000104904175,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8140000104904175,
+    "reward_std": 0.0,
+    "kl": 2.018176019191742e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.117,
+    "step": 234
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7974148392677307,
+    "learning_rate": 8.854999999999999e-07,
+    "num_tokens": 158620.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.5554712414741516e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1175,
+    "step": 235
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7260931730270386,
+    "learning_rate": 8.85e-07,
+    "num_tokens": 159516.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 7.259659469127655e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.118,
+    "step": 236
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6996958255767822,
+    "learning_rate": 8.845e-07,
+    "num_tokens": 160412.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.2821128368377686e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1185,
+    "step": 237
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004671283531934023,
+    "learning_rate": 8.839999999999999e-07,
+    "num_tokens": 160778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.2873045206069946e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.119,
+    "step": 238
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009693849133327603,
+    "learning_rate": 8.834999999999999e-07,
+    "num_tokens": 161144.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.379303961992264e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1195,
+    "step": 239
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009250525617972016,
+    "learning_rate": 8.83e-07,
+    "num_tokens": 161510.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.9317645132541656e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.12,
+    "step": 240
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.650233805179596,
+    "learning_rate": 8.824999999999999e-07,
+    "num_tokens": 162406.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 1.8423423171043396e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1205,
+    "step": 241
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7992975115776062,
+    "learning_rate": 8.82e-07,
+    "num_tokens": 163302.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8105000257492065,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8105000257492065,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.829877823591232e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.121,
+    "step": 242
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9677534699440002,
+    "learning_rate": 8.814999999999999e-07,
+    "num_tokens": 164198.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.436487168073654e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1215,
+    "step": 243
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007884668302722275,
+    "learning_rate": 8.81e-07,
+    "num_tokens": 165094.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 2.169981598854065e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.122,
+    "step": 244
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000979329226538539,
+    "learning_rate": 8.804999999999999e-07,
+    "num_tokens": 165460.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.646461457014084e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1225,
+    "step": 245
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006126004736870527,
+    "learning_rate": 8.799999999999999e-07,
+    "num_tokens": 166356.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 3.476254642009735e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.123,
+    "step": 246
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011434931075200438,
+    "learning_rate": 8.794999999999999e-07,
+    "num_tokens": 166722.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.4108910262584686e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1235,
+    "step": 247
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 5.088333606719971,
+    "learning_rate": 8.79e-07,
+    "num_tokens": 167618.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 0.0014105839654803276,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.124,
+    "step": 248
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8565078973770142,
+    "learning_rate": 8.784999999999999e-07,
+    "num_tokens": 168514.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8144999742507935,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8144999742507935,
+    "reward_std": 0.0035355305299162865,
+    "kl": 4.782341420650482e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1245,
+    "step": 249
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7004273533821106,
+    "learning_rate": 8.78e-07,
+    "num_tokens": 169410.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.045254841446876526,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.045254841446876526,
+    "kl": 1.3789162039756775e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.125,
+    "step": 250
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0018229980487376451,
+    "learning_rate": 8.774999999999999e-07,
+    "num_tokens": 169776.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.895271897315979e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1255,
+    "step": 251
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001281239208765328,
+    "learning_rate": 8.769999999999999e-07,
+    "num_tokens": 170142.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.564210444688797e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.126,
+    "step": 252
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001548050669953227,
+    "learning_rate": 8.764999999999999e-07,
+    "num_tokens": 170508.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.354771226644516e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1265,
+    "step": 253
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6451208591461182,
+    "learning_rate": 8.76e-07,
+    "num_tokens": 171404.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 5.1419250667095184e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.127,
+    "step": 254
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8378592729568481,
+    "learning_rate": 8.754999999999999e-07,
+    "num_tokens": 172300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 2.724677324295044e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1275,
+    "step": 255
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000880461884662509,
+    "learning_rate": 8.75e-07,
+    "num_tokens": 172666.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9389746487140656e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.128,
+    "step": 256
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8155960440635681,
+    "learning_rate": 8.745000000000001e-07,
+    "num_tokens": 173562.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.646407276391983e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1285,
+    "step": 257
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.756582260131836,
+    "learning_rate": 8.739999999999999e-07,
+    "num_tokens": 174458.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0011248448863625526,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.129,
+    "step": 258
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006294223130680621,
+    "learning_rate": 8.735e-07,
+    "num_tokens": 174824.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4514272809028625e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1295,
+    "step": 259
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005847606807947159,
+    "learning_rate": 8.729999999999999e-07,
+    "num_tokens": 175720.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 3.0250288546085358e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.13,
+    "step": 260
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006465958897024393,
+    "learning_rate": 8.725e-07,
+    "num_tokens": 176086.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.9011392295360565e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1305,
+    "step": 261
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006706174463033676,
+    "learning_rate": 8.72e-07,
+    "num_tokens": 176452.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6035122573375702e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.131,
+    "step": 262
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0024853611830621958,
+    "learning_rate": 8.715e-07,
+    "num_tokens": 177348.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.193271398544312e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1315,
+    "step": 263
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.990795373916626,
+    "learning_rate": 8.71e-07,
+    "num_tokens": 178244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00011088699102401733,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.132,
+    "step": 264
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6023589968681335,
+    "learning_rate": 8.705e-07,
+    "num_tokens": 179140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8100000023841858,
+    "rewards/environment_reward_verifier/std": 0.014142122119665146,
+    "reward": 0.8100000023841858,
+    "reward_std": 0.014142122119665146,
+    "kl": 2.4791806936264038e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1325,
+    "step": 265
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006478002178482711,
+    "learning_rate": 8.699999999999999e-07,
+    "num_tokens": 180036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 3.0393246561288834e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.133,
+    "step": 266
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003633753804024309,
+    "learning_rate": 8.695e-07,
+    "num_tokens": 180932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 1.7292797565460205e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1335,
+    "step": 267
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009483444155193865,
+    "learning_rate": 8.69e-07,
+    "num_tokens": 181298.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.2349489629268646e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.134,
+    "step": 268
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001294833142310381,
+    "learning_rate": 8.685e-07,
+    "num_tokens": 182194.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 4.401896148920059e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1345,
+    "step": 269
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9378226399421692,
+    "learning_rate": 8.68e-07,
+    "num_tokens": 183090.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6110000014305115,
+    "rewards/environment_reward_verifier/std": 0.32809752225875854,
+    "reward": 0.6110000014305115,
+    "reward_std": 0.32809752225875854,
+    "kl": 4.177261143922806e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.135,
+    "step": 270
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011398299830034375,
+    "learning_rate": 8.675000000000001e-07,
+    "num_tokens": 183456.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9952265322208405e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1355,
+    "step": 271
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7210366725921631,
+    "learning_rate": 8.669999999999999e-07,
+    "num_tokens": 184352.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8004999756813049,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.8004999756813049,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.8699636459350586e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.136,
+    "step": 272
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0038134672213345766,
+    "learning_rate": 8.665e-07,
+    "num_tokens": 185248.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 7.503852248191833e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1365,
+    "step": 273
+  },
+  {
+    "loss": 0.0004,
+    "grad_norm": 4.846627712249756,
+    "learning_rate": 8.659999999999999e-07,
+    "num_tokens": 186144.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.010152775794267654,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.137,
+    "step": 274
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009844097075983882,
+    "learning_rate": 8.655e-07,
+    "num_tokens": 187040.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 2.0081177353858948e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1375,
+    "step": 275
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000961087818723172,
+    "learning_rate": 8.65e-07,
+    "num_tokens": 187406.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8001144528388977e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.138,
+    "step": 276
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7714813947677612,
+    "learning_rate": 8.645e-07,
+    "num_tokens": 188302.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7940000295639038,
+    "rewards/environment_reward_verifier/std": 0.04949747025966644,
+    "reward": 0.7940000295639038,
+    "reward_std": 0.04949747025966644,
+    "kl": 4.729442298412323e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1385,
+    "step": 277
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010638447711244226,
+    "learning_rate": 8.639999999999999e-07,
+    "num_tokens": 188668.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.445947706699371e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.139,
+    "step": 278
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00015246507246047258,
+    "learning_rate": 8.635e-07,
+    "num_tokens": 189564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 5.039386451244354e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1395,
+    "step": 279
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011137727415189147,
+    "learning_rate": 8.629999999999999e-07,
+    "num_tokens": 190460.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.1976960599422455e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.14,
+    "step": 280
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009709048317745328,
+    "learning_rate": 8.625e-07,
+    "num_tokens": 191356.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4955254048109055e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1405,
+    "step": 281
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.3368643522262573,
+    "learning_rate": 8.62e-07,
+    "num_tokens": 192252.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 0.00012401491403579712,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.141,
+    "step": 282
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008055974612943828,
+    "learning_rate": 8.615e-07,
+    "num_tokens": 192618.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.564862370491028e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1415,
+    "step": 283
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8562883734703064,
+    "learning_rate": 8.61e-07,
+    "num_tokens": 193514.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5985000133514404,
+    "rewards/environment_reward_verifier/std": 0.3047630488872528,
+    "reward": 0.5985000133514404,
+    "reward_std": 0.3047630488872528,
+    "kl": 2.085510641336441e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.142,
+    "step": 284
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013000740436837077,
+    "learning_rate": 8.605e-07,
+    "num_tokens": 193880.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.2595206499099731e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1425,
+    "step": 285
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014716209843754768,
+    "learning_rate": 8.599999999999999e-07,
+    "num_tokens": 194246.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.012588083744049e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.143,
+    "step": 286
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6238701343536377,
+    "learning_rate": 8.595e-07,
+    "num_tokens": 195142.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 3.501400351524353e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1435,
+    "step": 287
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7292160987854004,
+    "learning_rate": 8.59e-07,
+    "num_tokens": 196038.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 3.310106694698334e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.144,
+    "step": 288
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2664096355438232,
+    "learning_rate": 8.585e-07,
+    "num_tokens": 196934.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 7.172953337430954e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1445,
+    "step": 289
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011152090737596154,
+    "learning_rate": 8.58e-07,
+    "num_tokens": 197300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.239380359649658e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.145,
+    "step": 290
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012550086248666048,
+    "learning_rate": 8.575e-07,
+    "num_tokens": 198196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 3.109592944383621e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1455,
+    "step": 291
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001699145999737084,
+    "learning_rate": 8.569999999999999e-07,
+    "num_tokens": 198562.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.172844976186752e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.146,
+    "step": 292
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014436126220971346,
+    "learning_rate": 8.565e-07,
+    "num_tokens": 199458.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 2.7905218303203583e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1465,
+    "step": 293
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.060386300086975,
+    "learning_rate": 8.559999999999999e-07,
+    "num_tokens": 200354.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 2.4184584617614746e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.147,
+    "step": 294
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.5308566093444824,
+    "learning_rate": 8.555e-07,
+    "num_tokens": 201250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0004968792200088501,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1475,
+    "step": 295
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.01867598481476307,
+    "learning_rate": 8.55e-07,
+    "num_tokens": 202146.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 0.0007902001962065697,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.148,
+    "step": 296
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.676836371421814,
+    "learning_rate": 8.545e-07,
+    "num_tokens": 203042.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5659999847412109,
+    "rewards/environment_reward_verifier/std": 0.26304370164871216,
+    "reward": 0.5659999847412109,
+    "reward_std": 0.26304370164871216,
+    "kl": 2.4565495550632477e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1485,
+    "step": 297
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000486809789435938,
+    "learning_rate": 8.539999999999999e-07,
+    "num_tokens": 203938.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 1.8110498785972595e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.149,
+    "step": 298
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 6.314117431640625,
+    "learning_rate": 8.535e-07,
+    "num_tokens": 204834.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 0.000560510903596878,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1495,
+    "step": 299
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016245761653408408,
+    "learning_rate": 8.529999999999999e-07,
+    "num_tokens": 205730.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.596170037984848e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.15,
+    "step": 300
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 4.8842644691467285,
+    "learning_rate": 8.525e-07,
+    "num_tokens": 206626.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0012828148901462555,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1505,
+    "step": 301
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6496160626411438,
+    "learning_rate": 8.52e-07,
+    "num_tokens": 207522.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 1.8990598618984222e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.151,
+    "step": 302
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2166204452514648,
+    "learning_rate": 8.515e-07,
+    "num_tokens": 208418.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 4.263874143362045e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1515,
+    "step": 303
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6483629941940308,
+    "learning_rate": 8.51e-07,
+    "num_tokens": 209314.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.642868250608444e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.152,
+    "step": 304
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.08719047904014587,
+    "learning_rate": 8.504999999999999e-07,
+    "num_tokens": 210210.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00048297271132469177,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1525,
+    "step": 305
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009118872112594545,
+    "learning_rate": 8.499999999999999e-07,
+    "num_tokens": 211106.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 3.436300903558731e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.153,
+    "step": 306
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000776519300416112,
+    "learning_rate": 8.495e-07,
+    "num_tokens": 212002.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.836909309029579e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1535,
+    "step": 307
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004030209092888981,
+    "learning_rate": 8.489999999999999e-07,
+    "num_tokens": 212898.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 1.1263415217399597e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.154,
+    "step": 308
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021231588907539845,
+    "learning_rate": 8.485e-07,
+    "num_tokens": 213264.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.808364272117615e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1545,
+    "step": 309
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010731469374150038,
+    "learning_rate": 8.48e-07,
+    "num_tokens": 213630.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.3443793654441833e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.155,
+    "step": 310
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.3191975355148315,
+    "learning_rate": 8.475e-07,
+    "num_tokens": 214526.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8109999895095825,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8109999895095825,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0001062760129570961,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1555,
+    "step": 311
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009143484639935195,
+    "learning_rate": 8.469999999999999e-07,
+    "num_tokens": 214892.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7162954211235046e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.156,
+    "step": 312
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008549138437956572,
+    "learning_rate": 8.465e-07,
+    "num_tokens": 215258.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.628060221672058e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1565,
+    "step": 313
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8807721138000488,
+    "learning_rate": 8.459999999999999e-07,
+    "num_tokens": 216154.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 3.3076852560043335e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.157,
+    "step": 314
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011269906535744667,
+    "learning_rate": 8.455e-07,
+    "num_tokens": 216520.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.0779042541980743e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1575,
+    "step": 315
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009529910748824477,
+    "learning_rate": 8.45e-07,
+    "num_tokens": 216886.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9197894036769867e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.158,
+    "step": 316
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5073452591896057,
+    "learning_rate": 8.445e-07,
+    "num_tokens": 217782.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 1.5504658222198486e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1585,
+    "step": 317
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6745843887329102,
+    "learning_rate": 8.439999999999999e-07,
+    "num_tokens": 218678.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 2.916809171438217e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.159,
+    "step": 318
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.83416348695755,
+    "learning_rate": 8.435e-07,
+    "num_tokens": 219574.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.966502845287323e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1595,
+    "step": 319
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005657601868733764,
+    "learning_rate": 8.429999999999999e-07,
+    "num_tokens": 219940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.7073936760425568e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.16,
+    "step": 320
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019271780038252473,
+    "learning_rate": 8.425e-07,
+    "num_tokens": 220306.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.132891237735748e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1605,
+    "step": 321
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7732903957366943,
+    "learning_rate": 8.419999999999999e-07,
+    "num_tokens": 221202.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 2.4759210646152496e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.161,
+    "step": 322
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4706270098686218,
+    "learning_rate": 8.415e-07,
+    "num_tokens": 222098.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 1.8648803234100342e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1615,
+    "step": 323
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9665089249610901,
+    "learning_rate": 8.41e-07,
+    "num_tokens": 222994.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.0028283908031880856,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.0028283908031880856,
+    "kl": 6.84782862663269e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.162,
+    "step": 324
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7919329404830933,
+    "learning_rate": 8.404999999999999e-07,
+    "num_tokens": 223890.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.011313731782138348,
+    "kl": 2.195313572883606e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1625,
+    "step": 325
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.768720269203186,
+    "learning_rate": 8.399999999999999e-07,
+    "num_tokens": 224786.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 4.016607999801636e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.163,
+    "step": 326
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0923116207122803,
+    "learning_rate": 8.395e-07,
+    "num_tokens": 225682.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 6.390083581209183e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1635,
+    "step": 327
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8083785772323608,
+    "learning_rate": 8.389999999999999e-07,
+    "num_tokens": 226578.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.3585744202136993e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.164,
+    "step": 328
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8358509540557861,
+    "learning_rate": 8.385e-07,
+    "num_tokens": 227474.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.7976930141448975e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1645,
+    "step": 329
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002556774066761136,
+    "learning_rate": 8.38e-07,
+    "num_tokens": 228370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 6.252247840166092e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.165,
+    "step": 330
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011076935334131122,
+    "learning_rate": 8.375e-07,
+    "num_tokens": 228736.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.133954644203186e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1655,
+    "step": 331
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8899944424629211,
+    "learning_rate": 8.369999999999999e-07,
+    "num_tokens": 229632.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 3.0472874641418457e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.166,
+    "step": 332
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005512312054634094,
+    "learning_rate": 8.365e-07,
+    "num_tokens": 230528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 1.4659948647022247e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1665,
+    "step": 333
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0276963710784912,
+    "learning_rate": 8.359999999999999e-07,
+    "num_tokens": 231424.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8019999861717224,
+    "rewards/environment_reward_verifier/std": 0.05091170594096184,
+    "reward": 0.8019999861717224,
+    "reward_std": 0.05091170594096184,
+    "kl": 5.741789937019348e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.167,
+    "step": 334
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006771369371563196,
+    "learning_rate": 8.355e-07,
+    "num_tokens": 231790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.835450530052185e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1675,
+    "step": 335
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005562920588999987,
+    "learning_rate": 8.349999999999999e-07,
+    "num_tokens": 232156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00012410897761583328,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.168,
+    "step": 336
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008655060082674026,
+    "learning_rate": 8.345e-07,
+    "num_tokens": 233052.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.971423625946045e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1685,
+    "step": 337
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011268710950389504,
+    "learning_rate": 8.34e-07,
+    "num_tokens": 233418.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.94646418094635e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.169,
+    "step": 338
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010772187961265445,
+    "learning_rate": 8.334999999999999e-07,
+    "num_tokens": 234314.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 3.5460107028484344e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1695,
+    "step": 339
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008576549007557333,
+    "learning_rate": 8.329999999999999e-07,
+    "num_tokens": 235210.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.149647429585457e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.17,
+    "step": 340
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.0028762817382812,
+    "learning_rate": 8.325e-07,
+    "num_tokens": 236106.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0004530055448412895,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1705,
+    "step": 341
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.707438588142395,
+    "learning_rate": 8.319999999999999e-07,
+    "num_tokens": 237002.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 2.5334767997264862e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.171,
+    "step": 342
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001074684434570372,
+    "learning_rate": 8.315e-07,
+    "num_tokens": 237368.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.078673034906387e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1715,
+    "step": 343
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007710942882113159,
+    "learning_rate": 8.31e-07,
+    "num_tokens": 237734.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.07280570268631e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.172,
+    "step": 344
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015255279140546918,
+    "learning_rate": 8.304999999999999e-07,
+    "num_tokens": 238100.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6513822376728058e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1725,
+    "step": 345
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001760940533131361,
+    "learning_rate": 8.299999999999999e-07,
+    "num_tokens": 238466.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.8121437430381775e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.173,
+    "step": 346
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5609378814697266,
+    "learning_rate": 8.295e-07,
+    "num_tokens": 239362.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7999999523162842,
+    "rewards/environment_reward_verifier/std": 0.04949747025966644,
+    "reward": 0.7999999523162842,
+    "reward_std": 0.04949747025966644,
+    "kl": 2.7747824788093567e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1735,
+    "step": 347
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6798244118690491,
+    "learning_rate": 8.289999999999999e-07,
+    "num_tokens": 240258.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 1.994706690311432e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.174,
+    "step": 348
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006170056294649839,
+    "learning_rate": 8.285e-07,
+    "num_tokens": 241154.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5138258934020996e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1745,
+    "step": 349
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8250600695610046,
+    "learning_rate": 8.28e-07,
+    "num_tokens": 242050.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.6516150683164597e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.175,
+    "step": 350
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8256682753562927,
+    "learning_rate": 8.275e-07,
+    "num_tokens": 242946.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.840269684791565e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1755,
+    "step": 351
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0038211841601878405,
+    "learning_rate": 8.269999999999999e-07,
+    "num_tokens": 243312.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.904119461774826e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.176,
+    "step": 352
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007045888341963291,
+    "learning_rate": 8.264999999999999e-07,
+    "num_tokens": 243678.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.098510205745697e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1765,
+    "step": 353
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005108074401505291,
+    "learning_rate": 8.259999999999999e-07,
+    "num_tokens": 244574.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 1.8666498363018036e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.177,
+    "step": 354
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017009348375722766,
+    "learning_rate": 8.255e-07,
+    "num_tokens": 244940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.8428384363651276e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1775,
+    "step": 355
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009280358208343387,
+    "learning_rate": 8.249999999999999e-07,
+    "num_tokens": 245306.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.047621041536331e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.178,
+    "step": 356
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006316198268905282,
+    "learning_rate": 8.245e-07,
+    "num_tokens": 245672.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.312939614057541e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1785,
+    "step": 357
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008523969445377588,
+    "learning_rate": 8.24e-07,
+    "num_tokens": 246568.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 2.503208816051483e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.179,
+    "step": 358
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.607419490814209,
+    "learning_rate": 8.234999999999999e-07,
+    "num_tokens": 247464.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 2.709217369556427e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1795,
+    "step": 359
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016844611382111907,
+    "learning_rate": 8.229999999999999e-07,
+    "num_tokens": 248360.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.207249730825424e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.18,
+    "step": 360
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0022826315835118294,
+    "learning_rate": 8.225e-07,
+    "num_tokens": 248726.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.5075081288814545e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1805,
+    "step": 361
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.871046245098114,
+    "learning_rate": 8.219999999999999e-07,
+    "num_tokens": 249622.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.359986633062363e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.181,
+    "step": 362
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007096790359355509,
+    "learning_rate": 8.215e-07,
+    "num_tokens": 249988.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.1784566342830658e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1815,
+    "step": 363
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5757960677146912,
+    "learning_rate": 8.21e-07,
+    "num_tokens": 250884.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5734999775886536,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5734999775886536,
+    "reward_std": 0.27082186937332153,
+    "kl": 2.105068415403366e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.182,
+    "step": 364
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0026919955853372812,
+    "learning_rate": 8.205e-07,
+    "num_tokens": 251250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.663597792387009e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1825,
+    "step": 365
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00391238322481513,
+    "learning_rate": 8.199999999999999e-07,
+    "num_tokens": 251616.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.422881364822388e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.183,
+    "step": 366
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019929648842662573,
+    "learning_rate": 8.194999999999999e-07,
+    "num_tokens": 251982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.68716025352478e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1835,
+    "step": 367
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001186743495054543,
+    "learning_rate": 8.189999999999999e-07,
+    "num_tokens": 252348.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.436580300331116e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.184,
+    "step": 368
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4352464973926544,
+    "learning_rate": 8.185e-07,
+    "num_tokens": 253244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 1.8279068171977997e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1845,
+    "step": 369
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.6293253302574158,
+    "learning_rate": 8.179999999999999e-07,
+    "num_tokens": 254140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 2.9394403100013733e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.185,
+    "step": 370
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.768975019454956,
+    "learning_rate": 8.175e-07,
+    "num_tokens": 255036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8185000419616699,
+    "rewards/environment_reward_verifier/std": 0.004949768073856831,
+    "reward": 0.8185000419616699,
+    "reward_std": 0.004949768073856831,
+    "kl": 1.7375685274600983e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1855,
+    "step": 371
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001828294014558196,
+    "learning_rate": 8.169999999999999e-07,
+    "num_tokens": 255932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 0.00010107597336173058,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.186,
+    "step": 372
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.805023729801178,
+    "learning_rate": 8.164999999999999e-07,
+    "num_tokens": 256828.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8100000023841858,
+    "rewards/environment_reward_verifier/std": 0.014142122119665146,
+    "reward": 0.8100000023841858,
+    "reward_std": 0.014142122119665146,
+    "kl": 4.6405941247940063e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1865,
+    "step": 373
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008711764821782708,
+    "learning_rate": 8.159999999999999e-07,
+    "num_tokens": 257194.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.0335580706596375e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.187,
+    "step": 374
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011456962674856186,
+    "learning_rate": 8.155e-07,
+    "num_tokens": 257560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.436300903558731e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1875,
+    "step": 375
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0034832863602787256,
+    "learning_rate": 8.149999999999999e-07,
+    "num_tokens": 258456.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.579514592885971e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.188,
+    "step": 376
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008365235989913344,
+    "learning_rate": 8.145e-07,
+    "num_tokens": 258822.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.2242387533187866e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1885,
+    "step": 377
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003608646511565894,
+    "learning_rate": 8.14e-07,
+    "num_tokens": 259188.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.0672956705093384e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.189,
+    "step": 378
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010314263636246324,
+    "learning_rate": 8.134999999999999e-07,
+    "num_tokens": 259554.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.590209573507309e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1895,
+    "step": 379
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008526266319677234,
+    "learning_rate": 8.129999999999999e-07,
+    "num_tokens": 259920.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.283882349729538e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.19,
+    "step": 380
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007325659971684217,
+    "learning_rate": 8.125e-07,
+    "num_tokens": 260816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 3.8174912333488464e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1905,
+    "step": 381
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.715529203414917,
+    "learning_rate": 8.12e-07,
+    "num_tokens": 261712.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 1.8450431525707245e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.191,
+    "step": 382
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8371534943580627,
+    "learning_rate": 8.115e-07,
+    "num_tokens": 262608.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8245000243186951,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8245000243186951,
+    "reward_std": 0.016263457015156746,
+    "kl": 1.7014332115650177e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1915,
+    "step": 383
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020516454242169857,
+    "learning_rate": 8.11e-07,
+    "num_tokens": 262974.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.929730832576752e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.192,
+    "step": 384
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9516167640686035,
+    "learning_rate": 8.105e-07,
+    "num_tokens": 263870.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 5.2636489272117615e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1925,
+    "step": 385
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009887670166790485,
+    "learning_rate": 8.1e-07,
+    "num_tokens": 264766.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8140000104904175,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8140000104904175,
+    "reward_std": 0.0,
+    "kl": 2.835039049386978e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.193,
+    "step": 386
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 5.623652935028076,
+    "learning_rate": 8.094999999999999e-07,
+    "num_tokens": 265662.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8314999938011169,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8314999938011169,
+    "reward_std": 0.016263457015156746,
+    "kl": 0.0014997078105807304,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1935,
+    "step": 387
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015900827711448073,
+    "learning_rate": 8.09e-07,
+    "num_tokens": 266558.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 4.941131919622421e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.194,
+    "step": 388
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.793515682220459,
+    "learning_rate": 8.085e-07,
+    "num_tokens": 267454.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5975000262260437,
+    "rewards/environment_reward_verifier/std": 0.3047630488872528,
+    "reward": 0.5975000262260437,
+    "reward_std": 0.3047630488872528,
+    "kl": 3.597978502511978e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1945,
+    "step": 389
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8414768576622009,
+    "learning_rate": 8.08e-07,
+    "num_tokens": 268350.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 4.779640585184097e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.195,
+    "step": 390
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028182165697216988,
+    "learning_rate": 8.075e-07,
+    "num_tokens": 268716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.616325557231903e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1955,
+    "step": 391
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008592616650275886,
+    "learning_rate": 8.070000000000001e-07,
+    "num_tokens": 269082.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4487264454364777e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.196,
+    "step": 392
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.569565534591675,
+    "learning_rate": 8.064999999999999e-07,
+    "num_tokens": 269978.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.06434673070907593,
+    "kl": 0.00014215800911188126,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1965,
+    "step": 393
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010324495378881693,
+    "learning_rate": 8.06e-07,
+    "num_tokens": 270344.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.629457205533981e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.197,
+    "step": 394
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8608807325363159,
+    "learning_rate": 8.055e-07,
+    "num_tokens": 271240.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 7.563550025224686e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1975,
+    "step": 395
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005319091724231839,
+    "learning_rate": 8.05e-07,
+    "num_tokens": 272136.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8986018151044846e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.198,
+    "step": 396
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007893664878793061,
+    "learning_rate": 8.045e-07,
+    "num_tokens": 273032.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8220000267028809,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8220000267028809,
+    "reward_std": 0.0,
+    "kl": 2.1637417376041412e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1985,
+    "step": 397
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00043877126881852746,
+    "learning_rate": 8.04e-07,
+    "num_tokens": 273928.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.8969178199768066e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.199,
+    "step": 398
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025300285778939724,
+    "learning_rate": 8.034999999999999e-07,
+    "num_tokens": 274294.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.670768976211548e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1995,
+    "step": 399
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 3.579826831817627,
+    "learning_rate": 8.03e-07,
+    "num_tokens": 275190.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.0013754144310951233,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2,
+    "step": 400
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0024137054570019245,
+    "learning_rate": 8.024999999999999e-07,
+    "num_tokens": 275556.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.208755075931549e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2005,
+    "step": 401
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.8765020370483398,
+    "learning_rate": 8.02e-07,
+    "num_tokens": 276452.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8194999694824219,
+    "rewards/environment_reward_verifier/std": 0.012020829133689404,
+    "reward": 0.8194999694824219,
+    "reward_std": 0.012020829133689404,
+    "kl": 3.9509497582912445e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.201,
+    "step": 402
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8817614316940308,
+    "learning_rate": 8.015e-07,
+    "num_tokens": 277348.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8289999961853027,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8289999961853027,
+    "reward_std": 0.0014141954015940428,
+    "kl": 1.7669983208179474e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2015,
+    "step": 403
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5131192207336426,
+    "learning_rate": 8.01e-07,
+    "num_tokens": 278244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.824999988079071,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.824999988079071,
+    "reward_std": 0.011313731782138348,
+    "kl": 2.452544867992401e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.202,
+    "step": 404
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9266701340675354,
+    "learning_rate": 8.005e-07,
+    "num_tokens": 279140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.136042505502701e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2025,
+    "step": 405
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010275949025526643,
+    "learning_rate": 8e-07,
+    "num_tokens": 280036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.6168843507766724e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.203,
+    "step": 406
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.020822610706090927,
+    "learning_rate": 7.994999999999999e-07,
+    "num_tokens": 280932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 0.00020745676010847092,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2035,
+    "step": 407
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001042524934746325,
+    "learning_rate": 7.99e-07,
+    "num_tokens": 281298.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.959572106599808e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.204,
+    "step": 408
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000953489972744137,
+    "learning_rate": 7.985e-07,
+    "num_tokens": 281664.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.811329275369644e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2045,
+    "step": 409
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007455811137333512,
+    "learning_rate": 7.98e-07,
+    "num_tokens": 282560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 1.9179657101631165e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.205,
+    "step": 410
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9579814672470093,
+    "learning_rate": 7.975e-07,
+    "num_tokens": 283456.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.659166395664215e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2055,
+    "step": 411
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005196427460759878,
+    "learning_rate": 7.970000000000001e-07,
+    "num_tokens": 283822.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.4914351999759674e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.206,
+    "step": 412
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002247238764539361,
+    "learning_rate": 7.964999999999999e-07,
+    "num_tokens": 284718.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7940000295639038,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7940000295639038,
+    "reward_std": 0.0,
+    "kl": 5.231797695159912e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2065,
+    "step": 413
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006796940229833126,
+    "learning_rate": 7.96e-07,
+    "num_tokens": 285614.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 0.0001318659633398056,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.207,
+    "step": 414
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011936328373849392,
+    "learning_rate": 7.954999999999999e-07,
+    "num_tokens": 285980.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.434864968061447e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2075,
+    "step": 415
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012174234725534916,
+    "learning_rate": 7.95e-07,
+    "num_tokens": 286346.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.835279494524002e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.208,
+    "step": 416
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.123206377029419,
+    "learning_rate": 7.945e-07,
+    "num_tokens": 287242.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8385000228881836,
+    "rewards/environment_reward_verifier/std": 0.026162952184677124,
+    "reward": 0.8385000228881836,
+    "reward_std": 0.026162952184677124,
+    "kl": 0.0003110067918896675,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2085,
+    "step": 417
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004384323488920927,
+    "learning_rate": 7.94e-07,
+    "num_tokens": 288138.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 9.18898731470108e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.209,
+    "step": 418
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4957750141620636,
+    "learning_rate": 7.934999999999999e-07,
+    "num_tokens": 289034.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8100000023841858,
+    "rewards/environment_reward_verifier/std": 0.014142122119665146,
+    "reward": 0.8100000023841858,
+    "reward_std": 0.014142122119665146,
+    "kl": 1.3055279850959778e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2095,
+    "step": 419
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00771497655659914,
+    "learning_rate": 7.93e-07,
+    "num_tokens": 289400.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00016101356595754623,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.21,
+    "step": 420
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010974898468703032,
+    "learning_rate": 7.924999999999999e-07,
+    "num_tokens": 289766.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.816730946302414e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2105,
+    "step": 421
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.798469603061676,
+    "learning_rate": 7.92e-07,
+    "num_tokens": 290662.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6200000047683716,
+    "rewards/environment_reward_verifier/std": 0.33516862988471985,
+    "reward": 0.6200000047683716,
+    "reward_std": 0.33516862988471985,
+    "kl": 3.2133422791957855e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.211,
+    "step": 422
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00414931820705533,
+    "learning_rate": 7.915e-07,
+    "num_tokens": 291028.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 8.758436888456345e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2115,
+    "step": 423
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9511045217514038,
+    "learning_rate": 7.91e-07,
+    "num_tokens": 291924.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 0.00012452621012926102,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.212,
+    "step": 424
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 0.2232443392276764,
+    "learning_rate": 7.905e-07,
+    "num_tokens": 292820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.0015941644087433815,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2125,
+    "step": 425
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002064876724034548,
+    "learning_rate": 7.9e-07,
+    "num_tokens": 293716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 6.643123924732208e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.213,
+    "step": 426
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006416325340978801,
+    "learning_rate": 7.894999999999999e-07,
+    "num_tokens": 294082.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.880766987800598e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2135,
+    "step": 427
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009233696036972106,
+    "learning_rate": 7.89e-07,
+    "num_tokens": 294448.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.7785619497299194e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.214,
+    "step": 428
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001352763269096613,
+    "learning_rate": 7.884999999999999e-07,
+    "num_tokens": 294814.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.464682519435883e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2145,
+    "step": 429
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8443479537963867,
+    "learning_rate": 7.88e-07,
+    "num_tokens": 295710.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.9816292226314545e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.215,
+    "step": 430
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007101478986442089,
+    "learning_rate": 7.875e-07,
+    "num_tokens": 296076.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.693571150302887e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2155,
+    "step": 431
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009829180780798197,
+    "learning_rate": 7.87e-07,
+    "num_tokens": 296972.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8159999847412109,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8159999847412109,
+    "reward_std": 0.0,
+    "kl": 2.2660940885543823e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.216,
+    "step": 432
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2148209810256958,
+    "learning_rate": 7.864999999999999e-07,
+    "num_tokens": 297868.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8259999752044678,
+    "rewards/environment_reward_verifier/std": 0.01272792648524046,
+    "reward": 0.8259999752044678,
+    "reward_std": 0.01272792648524046,
+    "kl": 3.0270777642726898e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2165,
+    "step": 433
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008294544531963766,
+    "learning_rate": 7.86e-07,
+    "num_tokens": 298234.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.230106085538864e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.217,
+    "step": 434
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017025723354890943,
+    "learning_rate": 7.854999999999999e-07,
+    "num_tokens": 298600.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.0699727833271027e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2175,
+    "step": 435
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008352863951586187,
+    "learning_rate": 7.85e-07,
+    "num_tokens": 298966.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.4608725905418396e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.218,
+    "step": 436
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7234691381454468,
+    "learning_rate": 7.845e-07,
+    "num_tokens": 299862.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.358442336320877e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2185,
+    "step": 437
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5953369736671448,
+    "learning_rate": 7.84e-07,
+    "num_tokens": 300758.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8339999914169312,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8339999914169312,
+    "reward_std": 0.0014141954015940428,
+    "kl": 2.1354295313358307e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.219,
+    "step": 438
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006108077359385788,
+    "learning_rate": 7.834999999999999e-07,
+    "num_tokens": 301124.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.793261617422104e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2195,
+    "step": 439
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003298780182376504,
+    "learning_rate": 7.83e-07,
+    "num_tokens": 301490.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.4461339712142944e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.22,
+    "step": 440
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0496840476989746,
+    "learning_rate": 7.824999999999999e-07,
+    "num_tokens": 302386.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 4.3274834752082825e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2205,
+    "step": 441
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.751266598701477,
+    "learning_rate": 7.82e-07,
+    "num_tokens": 303282.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 3.72203066945076e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.221,
+    "step": 442
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010550552979111671,
+    "learning_rate": 7.815e-07,
+    "num_tokens": 303648.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.893168807029724e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2215,
+    "step": 443
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.197258234024048,
+    "learning_rate": 7.81e-07,
+    "num_tokens": 304544.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8240000009536743,
+    "rewards/environment_reward_verifier/std": 0.015556317754089832,
+    "reward": 0.8240000009536743,
+    "reward_std": 0.015556317754089832,
+    "kl": 2.9307790100574493e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.222,
+    "step": 444
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001131376950070262,
+    "learning_rate": 7.805e-07,
+    "num_tokens": 304910.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.5722587704658508e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2225,
+    "step": 445
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.027177333831787,
+    "learning_rate": 7.799999999999999e-07,
+    "num_tokens": 305806.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.660377115011215e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.223,
+    "step": 446
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.4935749769210815,
+    "learning_rate": 7.794999999999999e-07,
+    "num_tokens": 306702.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.15164977312088e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2235,
+    "step": 447
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008162088342942297,
+    "learning_rate": 7.79e-07,
+    "num_tokens": 307068.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.881605178117752e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.224,
+    "step": 448
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008024214766919613,
+    "learning_rate": 7.784999999999999e-07,
+    "num_tokens": 307434.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0684674382209778e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2245,
+    "step": 449
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013720437418669462,
+    "learning_rate": 7.78e-07,
+    "num_tokens": 308330.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 4.176422953605652e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.225,
+    "step": 450
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008150116773322225,
+    "learning_rate": 7.775e-07,
+    "num_tokens": 309226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.145821392536163e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2255,
+    "step": 451
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.42958030104637146,
+    "learning_rate": 7.77e-07,
+    "num_tokens": 310122.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 1.4682300388813019e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.226,
+    "step": 452
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011029124725610018,
+    "learning_rate": 7.764999999999999e-07,
+    "num_tokens": 310488.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.344061017036438e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2265,
+    "step": 453
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011241426691412926,
+    "learning_rate": 7.76e-07,
+    "num_tokens": 310854.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.2280182242393494e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.227,
+    "step": 454
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8502638936042786,
+    "learning_rate": 7.754999999999999e-07,
+    "num_tokens": 311750.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 8.490029722452164e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2275,
+    "step": 455
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013144731055945158,
+    "learning_rate": 7.75e-07,
+    "num_tokens": 312646.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 3.39532271027565e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.228,
+    "step": 456
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009761439287103713,
+    "learning_rate": 7.745e-07,
+    "num_tokens": 313542.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 4.0193088352680206e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2285,
+    "step": 457
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000928891240619123,
+    "learning_rate": 7.74e-07,
+    "num_tokens": 313908.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.352055162191391e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.229,
+    "step": 458
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011163371382281184,
+    "learning_rate": 7.734999999999999e-07,
+    "num_tokens": 314274.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.4972093999385834e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2295,
+    "step": 459
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007710496429353952,
+    "learning_rate": 7.729999999999999e-07,
+    "num_tokens": 315170.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 3.975536674261093e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.23,
+    "step": 460
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007348654326051474,
+    "learning_rate": 7.724999999999999e-07,
+    "num_tokens": 316066.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 2.86223366856575e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2305,
+    "step": 461
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006661872030235827,
+    "learning_rate": 7.72e-07,
+    "num_tokens": 316962.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 3.3562071621418e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.231,
+    "step": 462
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008995214593596756,
+    "learning_rate": 7.714999999999999e-07,
+    "num_tokens": 317328.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9579736292362213e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2315,
+    "step": 463
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00045315801980905235,
+    "learning_rate": 7.71e-07,
+    "num_tokens": 318224.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.7801299691200256e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.232,
+    "step": 464
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6928626894950867,
+    "learning_rate": 7.705e-07,
+    "num_tokens": 319120.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 3.6436133086681366e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2325,
+    "step": 465
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0018925730837509036,
+    "learning_rate": 7.699999999999999e-07,
+    "num_tokens": 319486.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7309171855449677e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.233,
+    "step": 466
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006030919030308723,
+    "learning_rate": 7.694999999999999e-07,
+    "num_tokens": 319852.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.2816471755504608e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2335,
+    "step": 467
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019683674909174442,
+    "learning_rate": 7.69e-07,
+    "num_tokens": 320748.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.710737943649292e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.234,
+    "step": 468
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006103675113990903,
+    "learning_rate": 7.684999999999999e-07,
+    "num_tokens": 321644.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 2.8799287974834442e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2345,
+    "step": 469
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0023804621305316687,
+    "learning_rate": 7.68e-07,
+    "num_tokens": 322010.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.027573883533478e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.235,
+    "step": 470
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009048368665389717,
+    "learning_rate": 7.675e-07,
+    "num_tokens": 322376.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.2327137887477875e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2355,
+    "step": 471
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010861757909879088,
+    "learning_rate": 7.67e-07,
+    "num_tokens": 323272.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 4.105735570192337e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.236,
+    "step": 472
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025868702214211226,
+    "learning_rate": 7.664999999999999e-07,
+    "num_tokens": 323638.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.0113146901130676e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2365,
+    "step": 473
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010592455510050058,
+    "learning_rate": 7.66e-07,
+    "num_tokens": 324004.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.581362009048462e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.237,
+    "step": 474
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.106165885925293,
+    "learning_rate": 7.654999999999999e-07,
+    "num_tokens": 324900.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 6.282981485128403e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2375,
+    "step": 475
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00047323168837465346,
+    "learning_rate": 7.65e-07,
+    "num_tokens": 325796.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 2.4420209228992462e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.238,
+    "step": 476
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008561910362914205,
+    "learning_rate": 7.644999999999999e-07,
+    "num_tokens": 326162.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.239139914512634e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2385,
+    "step": 477
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020574661903083324,
+    "learning_rate": 7.64e-07,
+    "num_tokens": 326528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.563558518886566e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.239,
+    "step": 478
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008511331398040056,
+    "learning_rate": 7.635e-07,
+    "num_tokens": 326894.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.168731927871704e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2395,
+    "step": 479
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 0.3131347894668579,
+    "learning_rate": 7.629999999999999e-07,
+    "num_tokens": 327790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 0.0019212700426578522,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.24,
+    "step": 480
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006524409982375801,
+    "learning_rate": 7.624999999999999e-07,
+    "num_tokens": 328156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3995526134967804e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2405,
+    "step": 481
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0059391213580966,
+    "learning_rate": 7.62e-07,
+    "num_tokens": 328522.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.2319297790527344e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.241,
+    "step": 482
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007000913028605282,
+    "learning_rate": 7.614999999999999e-07,
+    "num_tokens": 328888.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.287661820650101e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2415,
+    "step": 483
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0497050285339355,
+    "learning_rate": 7.61e-07,
+    "num_tokens": 329784.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 4.231557250022888e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.242,
+    "step": 484
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002384317573159933,
+    "learning_rate": 7.605e-07,
+    "num_tokens": 330150.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.9060447812080383e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2425,
+    "step": 485
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013909583212807775,
+    "learning_rate": 7.599999999999999e-07,
+    "num_tokens": 330516.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.785694181919098e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.243,
+    "step": 486
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008498562383465469,
+    "learning_rate": 7.594999999999999e-07,
+    "num_tokens": 330882.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4384818971157074e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2435,
+    "step": 487
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9792348146438599,
+    "learning_rate": 7.59e-07,
+    "num_tokens": 331778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 7.939618080854416e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.244,
+    "step": 488
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009439431014470756,
+    "learning_rate": 7.584999999999999e-07,
+    "num_tokens": 332144.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.3556331396102905e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2445,
+    "step": 489
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7939324975013733,
+    "learning_rate": 7.58e-07,
+    "num_tokens": 333040.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.06434673070907593,
+    "kl": 4.28222119808197e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.245,
+    "step": 490
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003945075150113553,
+    "learning_rate": 7.575e-07,
+    "num_tokens": 333936.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.732911914587021e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2455,
+    "step": 491
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014100059634074569,
+    "learning_rate": 7.57e-07,
+    "num_tokens": 334302.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.51747328042984e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.246,
+    "step": 492
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9064180254936218,
+    "learning_rate": 7.564999999999999e-07,
+    "num_tokens": 335198.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5659999847412109,
+    "rewards/environment_reward_verifier/std": 0.26304370164871216,
+    "reward": 0.5659999847412109,
+    "reward_std": 0.26304370164871216,
+    "kl": 5.394965410232544e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2465,
+    "step": 493
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009017913253046572,
+    "learning_rate": 7.559999999999999e-07,
+    "num_tokens": 335564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.33577224612236e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.247,
+    "step": 494
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.008774330839514732,
+    "learning_rate": 7.554999999999999e-07,
+    "num_tokens": 335930.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00010191276669502258,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2475,
+    "step": 495
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007485725800506771,
+    "learning_rate": 7.55e-07,
+    "num_tokens": 336296.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.93204391002655e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.248,
+    "step": 496
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7277558445930481,
+    "learning_rate": 7.544999999999999e-07,
+    "num_tokens": 337192.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8344999551773071,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8344999551773071,
+    "reward_std": 0.0007070977007970214,
+    "kl": 5.529914051294327e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2485,
+    "step": 497
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.97030508518219,
+    "learning_rate": 7.54e-07,
+    "num_tokens": 338088.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 0.00012331828474998474,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.249,
+    "step": 498
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019033459248021245,
+    "learning_rate": 7.535e-07,
+    "num_tokens": 338454.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.811158239841461e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2495,
+    "step": 499
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006422542501240969,
+    "learning_rate": 7.529999999999999e-07,
+    "num_tokens": 339350.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.1509826183319092e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.25,
+    "step": 500
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9627796411514282,
+    "learning_rate": 7.524999999999999e-07,
+    "num_tokens": 340246.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 2.447608858346939e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2505,
+    "step": 501
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000901131599675864,
+    "learning_rate": 7.52e-07,
+    "num_tokens": 340612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.061164170503616e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.251,
+    "step": 502
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7200298309326172,
+    "learning_rate": 7.514999999999999e-07,
+    "num_tokens": 341508.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 4.367716610431671e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2515,
+    "step": 503
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002020574174821377,
+    "learning_rate": 7.51e-07,
+    "num_tokens": 342404.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 5.6852586567401886e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.252,
+    "step": 504
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009755368810147047,
+    "learning_rate": 7.505e-07,
+    "num_tokens": 342770.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.1616538763046265e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2525,
+    "step": 505
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8925000429153442,
+    "learning_rate": 7.5e-07,
+    "num_tokens": 343666.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 9.544193744659424e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.253,
+    "step": 506
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00094449712196365,
+    "learning_rate": 7.495e-07,
+    "num_tokens": 344032.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.762224853038788e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2535,
+    "step": 507
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5173064470291138,
+    "learning_rate": 7.489999999999999e-07,
+    "num_tokens": 344928.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 7.414352148771286e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.254,
+    "step": 508
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008655313868075609,
+    "learning_rate": 7.485e-07,
+    "num_tokens": 345294.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.4428201615810394e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2545,
+    "step": 509
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009476901614107192,
+    "learning_rate": 7.48e-07,
+    "num_tokens": 345660.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.9035454392433167e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.255,
+    "step": 510
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5047985315322876,
+    "learning_rate": 7.475e-07,
+    "num_tokens": 346556.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 6.398884579539299e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2555,
+    "step": 511
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.2779611349105835,
+    "learning_rate": 7.47e-07,
+    "num_tokens": 347452.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 4.671793431043625e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.256,
+    "step": 512
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025708882603794336,
+    "learning_rate": 7.465e-07,
+    "num_tokens": 347818.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.117819041013718e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2565,
+    "step": 513
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007069227285683155,
+    "learning_rate": 7.459999999999999e-07,
+    "num_tokens": 348184.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.3818185329437256e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.257,
+    "step": 514
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9211877584457397,
+    "learning_rate": 7.455e-07,
+    "num_tokens": 349080.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6110000014305115,
+    "rewards/environment_reward_verifier/std": 0.32809752225875854,
+    "reward": 0.6110000014305115,
+    "reward_std": 0.32809752225875854,
+    "kl": 4.2280182242393494e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2575,
+    "step": 515
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028202433604747057,
+    "learning_rate": 7.45e-07,
+    "num_tokens": 349976.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 5.090329796075821e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.258,
+    "step": 516
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010466987732797861,
+    "learning_rate": 7.445e-07,
+    "num_tokens": 350872.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 4.4493936002254486e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2585,
+    "step": 517
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011290244292467833,
+    "learning_rate": 7.44e-07,
+    "num_tokens": 351238.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4223700165748596e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.259,
+    "step": 518
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9691317081451416,
+    "learning_rate": 7.435000000000001e-07,
+    "num_tokens": 352134.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8350000381469727,
+    "rewards/environment_reward_verifier/std": 0.0014142375439405441,
+    "reward": 0.8350000381469727,
+    "reward_std": 0.0014142375439405441,
+    "kl": 0.00011391844600439072,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2595,
+    "step": 519
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011023505358025432,
+    "learning_rate": 7.429999999999999e-07,
+    "num_tokens": 352500.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.7062523663043976e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.26,
+    "step": 520
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012557971058413386,
+    "learning_rate": 7.425e-07,
+    "num_tokens": 353396.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 3.79001721739769e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2605,
+    "step": 521
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001549424254335463,
+    "learning_rate": 7.42e-07,
+    "num_tokens": 353762.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.348771810531616e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.261,
+    "step": 522
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7359144687652588,
+    "learning_rate": 7.415e-07,
+    "num_tokens": 354658.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.5052187740802765e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2615,
+    "step": 523
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008711325353942811,
+    "learning_rate": 7.41e-07,
+    "num_tokens": 355024.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.368314355611801e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.262,
+    "step": 524
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014574839733541012,
+    "learning_rate": 7.405e-07,
+    "num_tokens": 355920.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 5.590170621871948e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2625,
+    "step": 525
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007790196686983109,
+    "learning_rate": 7.4e-07,
+    "num_tokens": 356816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.2617710530757904e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.263,
+    "step": 526
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012634535087272525,
+    "learning_rate": 7.395e-07,
+    "num_tokens": 357712.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.7451816499233246e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2635,
+    "step": 527
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8514025211334229,
+    "learning_rate": 7.389999999999999e-07,
+    "num_tokens": 358608.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 3.659818321466446e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.264,
+    "step": 528
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017907796427607536,
+    "learning_rate": 7.385e-07,
+    "num_tokens": 358974.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8436072170734406e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2645,
+    "step": 529
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009088242659345269,
+    "learning_rate": 7.38e-07,
+    "num_tokens": 359340.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9717572033405304e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.265,
+    "step": 530
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.416846752166748,
+    "learning_rate": 7.375e-07,
+    "num_tokens": 360236.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8264999985694885,
+    "rewards/environment_reward_verifier/std": 0.012020787224173546,
+    "reward": 0.8264999985694885,
+    "reward_std": 0.012020787224173546,
+    "kl": 3.840494900941849e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2655,
+    "step": 531
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013038903707638383,
+    "learning_rate": 7.37e-07,
+    "num_tokens": 360602.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.015917122364044e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.266,
+    "step": 532
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011814340250566602,
+    "learning_rate": 7.365e-07,
+    "num_tokens": 360968.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.90554016828537e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2665,
+    "step": 533
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.036372631788253784,
+    "learning_rate": 7.359999999999999e-07,
+    "num_tokens": 361864.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 0.00014512613415718079,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.267,
+    "step": 534
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004396241623908281,
+    "learning_rate": 7.355e-07,
+    "num_tokens": 362230.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.8152171075344086e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2675,
+    "step": 535
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006165736122056842,
+    "learning_rate": 7.35e-07,
+    "num_tokens": 363126.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 2.704653888940811e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.268,
+    "step": 536
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000927309098187834,
+    "learning_rate": 7.345e-07,
+    "num_tokens": 363492.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.315415233373642e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2685,
+    "step": 537
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00157637195661664,
+    "learning_rate": 7.34e-07,
+    "num_tokens": 364388.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.674214869737625e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.269,
+    "step": 538
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015477711567655206,
+    "learning_rate": 7.335e-07,
+    "num_tokens": 364754.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.830568701028824e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2695,
+    "step": 539
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1562288999557495,
+    "learning_rate": 7.329999999999999e-07,
+    "num_tokens": 365650.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8365000486373901,
+    "rewards/environment_reward_verifier/std": 0.01909189112484455,
+    "reward": 0.8365000486373901,
+    "reward_std": 0.01909189112484455,
+    "kl": 2.844352275133133e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.27,
+    "step": 540
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.646880030632019,
+    "learning_rate": 7.325e-07,
+    "num_tokens": 366546.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 1.5391036868095398e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2705,
+    "step": 541
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017395936883985996,
+    "learning_rate": 7.319999999999999e-07,
+    "num_tokens": 367442.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 6.28521665930748e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.271,
+    "step": 542
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006721155950799584,
+    "learning_rate": 7.315e-07,
+    "num_tokens": 367808.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.583395689725876e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2715,
+    "step": 543
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009692271705716848,
+    "learning_rate": 7.31e-07,
+    "num_tokens": 368174.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9871629774570465e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.272,
+    "step": 544
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010545527329668403,
+    "learning_rate": 7.305e-07,
+    "num_tokens": 368540.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.037136048078537e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2725,
+    "step": 545
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012554118875414133,
+    "learning_rate": 7.3e-07,
+    "num_tokens": 368906.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.573950380086899e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.273,
+    "step": 546
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7156521677970886,
+    "learning_rate": 7.295e-07,
+    "num_tokens": 369802.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.4407712519168854e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2735,
+    "step": 547
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003729368036147207,
+    "learning_rate": 7.289999999999999e-07,
+    "num_tokens": 370168.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.4538876712322235e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.274,
+    "step": 548
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016862640623003244,
+    "learning_rate": 7.285e-07,
+    "num_tokens": 370534.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.4197775423526764e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2745,
+    "step": 549
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007830922259017825,
+    "learning_rate": 7.28e-07,
+    "num_tokens": 371430.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 2.658367156982422e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.275,
+    "step": 550
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010923327645286918,
+    "learning_rate": 7.275e-07,
+    "num_tokens": 371796.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.927627742290497e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2755,
+    "step": 551
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8142842054367065,
+    "learning_rate": 7.27e-07,
+    "num_tokens": 372692.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.250276833772659e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.276,
+    "step": 552
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6860761642456055,
+    "learning_rate": 7.265000000000001e-07,
+    "num_tokens": 373588.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5734999775886536,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5734999775886536,
+    "reward_std": 0.27082186937332153,
+    "kl": 3.765430301427841e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2765,
+    "step": 553
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008581196889281273,
+    "learning_rate": 7.259999999999999e-07,
+    "num_tokens": 373954.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.81167808175087e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.277,
+    "step": 554
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011645841877907515,
+    "learning_rate": 7.255e-07,
+    "num_tokens": 374320.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8624199330806732e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2775,
+    "step": 555
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.9909136295318604,
+    "learning_rate": 7.249999999999999e-07,
+    "num_tokens": 375216.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 9.493250399827957e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.278,
+    "step": 556
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014020655071362853,
+    "learning_rate": 7.245e-07,
+    "num_tokens": 376112.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 4.471559077501297e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2785,
+    "step": 557
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004894250887446105,
+    "learning_rate": 7.24e-07,
+    "num_tokens": 376478.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.7498619854450226e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.279,
+    "step": 558
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006631935248151422,
+    "learning_rate": 7.235e-07,
+    "num_tokens": 377374.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 3.2833777368068695e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2795,
+    "step": 559
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011922323610633612,
+    "learning_rate": 7.229999999999999e-07,
+    "num_tokens": 377740.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.988722503185272e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.28,
+    "step": 560
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7559614777565002,
+    "learning_rate": 7.225e-07,
+    "num_tokens": 378636.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8259999752044678,
+    "rewards/environment_reward_verifier/std": 0.01272792648524046,
+    "reward": 0.8259999752044678,
+    "reward_std": 0.01272792648524046,
+    "kl": 4.695635288953781e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2805,
+    "step": 561
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7900487780570984,
+    "learning_rate": 7.219999999999999e-07,
+    "num_tokens": 379532.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.812999963760376,
+    "rewards/environment_reward_verifier/std": 0.009899493306875229,
+    "reward": 0.812999963760376,
+    "reward_std": 0.009899494238197803,
+    "kl": 3.7454068660736084e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.281,
+    "step": 562
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014660859014838934,
+    "learning_rate": 7.215e-07,
+    "num_tokens": 379898.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.8963894844055176e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2815,
+    "step": 563
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0280815362930298,
+    "learning_rate": 7.21e-07,
+    "num_tokens": 380794.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 6.190314888954163e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.282,
+    "step": 564
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 6.458773612976074,
+    "learning_rate": 7.205e-07,
+    "num_tokens": 381690.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 0.001496921293437481,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2825,
+    "step": 565
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010697654215618968,
+    "learning_rate": 7.2e-07,
+    "num_tokens": 382056.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.735573798418045e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.283,
+    "step": 566
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8140199184417725,
+    "learning_rate": 7.195e-07,
+    "num_tokens": 382952.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 3.6473385989665985e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2835,
+    "step": 567
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6990031599998474,
+    "learning_rate": 7.189999999999999e-07,
+    "num_tokens": 383848.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.972664803266525e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.284,
+    "step": 568
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.48030799627304077,
+    "learning_rate": 7.185e-07,
+    "num_tokens": 384744.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 3.3359043300151825e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2845,
+    "step": 569
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6752439141273499,
+    "learning_rate": 7.179999999999999e-07,
+    "num_tokens": 385640.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5659999847412109,
+    "rewards/environment_reward_verifier/std": 0.26304370164871216,
+    "reward": 0.5659999847412109,
+    "reward_std": 0.26304370164871216,
+    "kl": 2.0023435354232788e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.285,
+    "step": 570
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005463989917188883,
+    "learning_rate": 7.175e-07,
+    "num_tokens": 386536.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.0,
+    "kl": 0.00011748820543289185,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2855,
+    "step": 571
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015461534494534135,
+    "learning_rate": 7.17e-07,
+    "num_tokens": 386902.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5323592126369476e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.286,
+    "step": 572
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8691689968109131,
+    "learning_rate": 7.165e-07,
+    "num_tokens": 387798.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 9.879283607006073e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2865,
+    "step": 573
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9046115279197693,
+    "learning_rate": 7.159999999999999e-07,
+    "num_tokens": 388694.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.8303824365139008e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.287,
+    "step": 574
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012133732670918107,
+    "learning_rate": 7.155e-07,
+    "num_tokens": 389060.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.523286432027817e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2875,
+    "step": 575
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1806221008300781,
+    "learning_rate": 7.149999999999999e-07,
+    "num_tokens": 389956.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7904999852180481,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7904999852180481,
+    "reward_std": 0.037476640194654465,
+    "kl": 4.287436604499817e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.288,
+    "step": 576
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6862530708312988,
+    "learning_rate": 7.145e-07,
+    "num_tokens": 390852.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.045254841446876526,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.045254841446876526,
+    "kl": 2.5819987058639526e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2885,
+    "step": 577
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016118023777380586,
+    "learning_rate": 7.14e-07,
+    "num_tokens": 391218.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.8440881073474884e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.289,
+    "step": 578
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008948792237788439,
+    "learning_rate": 7.135e-07,
+    "num_tokens": 391584.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.9758008420467377e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2895,
+    "step": 579
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017725012730807066,
+    "learning_rate": 7.129999999999999e-07,
+    "num_tokens": 391950.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.52590936422348e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.29,
+    "step": 580
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003398467553779483,
+    "learning_rate": 7.125e-07,
+    "num_tokens": 392316.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.3013674914836884e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2905,
+    "step": 581
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011972826905548573,
+    "learning_rate": 7.119999999999999e-07,
+    "num_tokens": 392682.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.47416678071022e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.291,
+    "step": 582
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000996905378997326,
+    "learning_rate": 7.115e-07,
+    "num_tokens": 393048.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.768503665924072e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2915,
+    "step": 583
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.3965910077095032,
+    "learning_rate": 7.11e-07,
+    "num_tokens": 393944.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 1.6774050891399384e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.292,
+    "step": 584
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1074873208999634,
+    "learning_rate": 7.105e-07,
+    "num_tokens": 394840.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.8788653910160065e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2925,
+    "step": 585
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007802587351761758,
+    "learning_rate": 7.1e-07,
+    "num_tokens": 395206.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.516022115945816e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.293,
+    "step": 586
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005516806268133223,
+    "learning_rate": 7.094999999999999e-07,
+    "num_tokens": 396102.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.4449080228805542e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2935,
+    "step": 587
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013195326318964362,
+    "learning_rate": 7.089999999999999e-07,
+    "num_tokens": 396468.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.4308061003685e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.294,
+    "step": 588
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014623524621129036,
+    "learning_rate": 7.085e-07,
+    "num_tokens": 396834.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.5030377805233e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2945,
+    "step": 589
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007937848567962646,
+    "learning_rate": 7.079999999999999e-07,
+    "num_tokens": 397730.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 3.699958324432373e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.295,
+    "step": 590
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6660794019699097,
+    "learning_rate": 7.075e-07,
+    "num_tokens": 398626.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8174999952316284,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8174999952316284,
+    "reward_std": 0.014849262312054634,
+    "kl": 2.4378299713134766e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2955,
+    "step": 591
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011187827913090587,
+    "learning_rate": 7.07e-07,
+    "num_tokens": 398992.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.750009298324585e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.296,
+    "step": 592
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013909402769058943,
+    "learning_rate": 7.065e-07,
+    "num_tokens": 399358.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.801526665687561e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2965,
+    "step": 593
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.009479865431785583,
+    "learning_rate": 7.059999999999999e-07,
+    "num_tokens": 400254.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 0.00018437672406435013,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.297,
+    "step": 594
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006968002999201417,
+    "learning_rate": 7.055e-07,
+    "num_tokens": 400620.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.683699131011963e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2975,
+    "step": 595
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1247608661651611,
+    "learning_rate": 7.049999999999999e-07,
+    "num_tokens": 401516.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.596395254135132e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.298,
+    "step": 596
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7843502759933472,
+    "learning_rate": 7.045e-07,
+    "num_tokens": 402412.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7669999599456787,
+    "rewards/environment_reward_verifier/std": 0.00424262834712863,
+    "reward": 0.7669999599456787,
+    "reward_std": 0.00424262834712863,
+    "kl": 3.2738782465457916e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2985,
+    "step": 597
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007366478675976396,
+    "learning_rate": 7.04e-07,
+    "num_tokens": 402778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6930123567581177e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.299,
+    "step": 598
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5876581072807312,
+    "learning_rate": 7.035e-07,
+    "num_tokens": 403674.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.1344982087612152e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2995,
+    "step": 599
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.7197017669677734,
+    "learning_rate": 7.029999999999999e-07,
+    "num_tokens": 404570.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.03111271932721138,
+    "reward": 0.828000009059906,
+    "reward_std": 0.03111271932721138,
+    "kl": 9.680353105068207e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3,
+    "step": 600
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001130021526478231,
+    "learning_rate": 7.024999999999999e-07,
+    "num_tokens": 404936.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.8620863556861877e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3005,
+    "step": 601
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0326294898986816,
+    "learning_rate": 7.019999999999999e-07,
+    "num_tokens": 405832.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8370000123977661,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8370000123977661,
+    "reward_std": 0.0014141954015940428,
+    "kl": 8.158478885889053e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.301,
+    "step": 602
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007612873450852931,
+    "learning_rate": 7.015e-07,
+    "num_tokens": 406198.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8013251721858978e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3015,
+    "step": 603
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015164915239438415,
+    "learning_rate": 7.009999999999999e-07,
+    "num_tokens": 406564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.440639168024063e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.302,
+    "step": 604
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012494310503825545,
+    "learning_rate": 7.005e-07,
+    "num_tokens": 407460.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 5.6570395827293396e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3025,
+    "step": 605
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7219941020011902,
+    "learning_rate": 7e-07,
+    "num_tokens": 408356.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8344999551773071,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8344999551773071,
+    "reward_std": 0.0007070977007970214,
+    "kl": 3.477931022644043e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.303,
+    "step": 606
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5845794677734375,
+    "learning_rate": 6.994999999999999e-07,
+    "num_tokens": 409252.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.00424262834712863,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.00424262834712863,
+    "kl": 7.447786629199982e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3035,
+    "step": 607
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1389849185943604,
+    "learning_rate": 6.989999999999999e-07,
+    "num_tokens": 410148.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 4.856474697589874e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.304,
+    "step": 608
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.9767954349517822,
+    "learning_rate": 6.985e-07,
+    "num_tokens": 411044.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6110000014305115,
+    "rewards/environment_reward_verifier/std": 0.32809752225875854,
+    "reward": 0.6110000014305115,
+    "reward_std": 0.32809752225875854,
+    "kl": 5.687400698661804e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3045,
+    "step": 609
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010801024036481977,
+    "learning_rate": 6.979999999999999e-07,
+    "num_tokens": 411410.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.324689507484436e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.305,
+    "step": 610
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011967119062319398,
+    "learning_rate": 6.975e-07,
+    "num_tokens": 412306.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.905687481164932e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3055,
+    "step": 611
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006793588981963694,
+    "learning_rate": 6.97e-07,
+    "num_tokens": 413202.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.5127472579479218e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.306,
+    "step": 612
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005013294867239892,
+    "learning_rate": 6.965e-07,
+    "num_tokens": 413568.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.882854849100113e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3065,
+    "step": 613
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007044204394333065,
+    "learning_rate": 6.959999999999999e-07,
+    "num_tokens": 413934.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5583431124687195e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.307,
+    "step": 614
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000589247967582196,
+    "learning_rate": 6.955e-07,
+    "num_tokens": 414830.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 2.7990899980068207e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3075,
+    "step": 615
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7483782768249512,
+    "learning_rate": 6.949999999999999e-07,
+    "num_tokens": 415726.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.3659860491752625e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.308,
+    "step": 616
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5555701851844788,
+    "learning_rate": 6.945e-07,
+    "num_tokens": 416622.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5744999647140503,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5744999647140503,
+    "reward_std": 0.27082186937332153,
+    "kl": 4.6846456825733185e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3085,
+    "step": 617
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0049834963865578175,
+    "learning_rate": 6.939999999999999e-07,
+    "num_tokens": 416988.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.719756543636322e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.309,
+    "step": 618
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017910569440573454,
+    "learning_rate": 6.935e-07,
+    "num_tokens": 417884.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 6.791949272155762e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3095,
+    "step": 619
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004858257714658976,
+    "learning_rate": 6.929999999999999e-07,
+    "num_tokens": 418250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00011091213673353195,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.31,
+    "step": 620
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.75960373878479,
+    "learning_rate": 6.924999999999999e-07,
+    "num_tokens": 419146.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 2.6852823793888092e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3105,
+    "step": 621
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010069460840895772,
+    "learning_rate": 6.919999999999999e-07,
+    "num_tokens": 419512.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.194863140583038e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.311,
+    "step": 622
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.008241693489253521,
+    "learning_rate": 6.915e-07,
+    "num_tokens": 419878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00017871428281068802,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3115,
+    "step": 623
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.8802902698516846,
+    "learning_rate": 6.909999999999999e-07,
+    "num_tokens": 420774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8339999914169312,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8339999914169312,
+    "reward_std": 0.0014141954015940428,
+    "kl": 3.557652235031128e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.312,
+    "step": 624
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8549783825874329,
+    "learning_rate": 6.905e-07,
+    "num_tokens": 421670.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 6.370618939399719e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3125,
+    "step": 625
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7835222482681274,
+    "learning_rate": 6.9e-07,
+    "num_tokens": 422566.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.9892660677433014e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.313,
+    "step": 626
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6540793180465698,
+    "learning_rate": 6.894999999999999e-07,
+    "num_tokens": 423462.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 6.963033229112625e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3135,
+    "step": 627
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005253406707197428,
+    "learning_rate": 6.889999999999999e-07,
+    "num_tokens": 423828.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.8034130334854126e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.314,
+    "step": 628
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009612101130187511,
+    "learning_rate": 6.885e-07,
+    "num_tokens": 424194.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.799237310886383e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3145,
+    "step": 629
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007504363311454654,
+    "learning_rate": 6.879999999999999e-07,
+    "num_tokens": 424560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.4528242647647858e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.315,
+    "step": 630
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010777200805023313,
+    "learning_rate": 6.875e-07,
+    "num_tokens": 424926.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.31831756234169e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3155,
+    "step": 631
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001108592259697616,
+    "learning_rate": 6.87e-07,
+    "num_tokens": 425292.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.3447908461093903e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.316,
+    "step": 632
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8040815591812134,
+    "learning_rate": 6.865e-07,
+    "num_tokens": 426188.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 2.512522041797638e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3165,
+    "step": 633
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6935257911682129,
+    "learning_rate": 6.86e-07,
+    "num_tokens": 427084.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8355000019073486,
+    "rewards/environment_reward_verifier/std": 0.0007071398431435227,
+    "reward": 0.8355000019073486,
+    "reward_std": 0.0007071398431435227,
+    "kl": 5.880650132894516e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.317,
+    "step": 634
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012401107233017683,
+    "learning_rate": 6.854999999999999e-07,
+    "num_tokens": 427450.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.05838543176651e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3175,
+    "step": 635
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003047216683626175,
+    "learning_rate": 6.85e-07,
+    "num_tokens": 427816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.263501614332199e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.318,
+    "step": 636
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007127355202101171,
+    "learning_rate": 6.845e-07,
+    "num_tokens": 428182.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.4394521713256836e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3185,
+    "step": 637
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7168914079666138,
+    "learning_rate": 6.84e-07,
+    "num_tokens": 429078.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 3.9987266063690186e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.319,
+    "step": 638
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012631439603865147,
+    "learning_rate": 6.835e-07,
+    "num_tokens": 429444.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7933157980442047e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3195,
+    "step": 639
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010941632790490985,
+    "learning_rate": 6.830000000000001e-07,
+    "num_tokens": 429810.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.12454828619957e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.32,
+    "step": 640
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5629311800003052,
+    "learning_rate": 6.824999999999999e-07,
+    "num_tokens": 430706.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8370000123977661,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8370000123977661,
+    "reward_std": 0.0014141954015940428,
+    "kl": 2.9305927455425262e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3205,
+    "step": 641
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014564594021067023,
+    "learning_rate": 6.82e-07,
+    "num_tokens": 431602.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.473142325878143e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.321,
+    "step": 642
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008370128343813121,
+    "learning_rate": 6.815e-07,
+    "num_tokens": 431968.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.746524453163147e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3215,
+    "step": 643
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6197002530097961,
+    "learning_rate": 6.81e-07,
+    "num_tokens": 432864.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 2.3438595235347748e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.322,
+    "step": 644
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005567868938669562,
+    "learning_rate": 6.805e-07,
+    "num_tokens": 433230.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.808907836675644e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3225,
+    "step": 645
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6040643453598022,
+    "learning_rate": 6.800000000000001e-07,
+    "num_tokens": 434126.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5659999847412109,
+    "rewards/environment_reward_verifier/std": 0.26304370164871216,
+    "reward": 0.5659999847412109,
+    "reward_std": 0.26304370164871216,
+    "kl": 2.449285238981247e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.323,
+    "step": 646
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002252435078844428,
+    "learning_rate": 6.794999999999999e-07,
+    "num_tokens": 435022.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 7.445178925991058e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3235,
+    "step": 647
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 4.579550266265869,
+    "learning_rate": 6.79e-07,
+    "num_tokens": 435918.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 6.625894457101822e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.324,
+    "step": 648
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013744801981374621,
+    "learning_rate": 6.784999999999999e-07,
+    "num_tokens": 436814.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 5.259178578853607e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3245,
+    "step": 649
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.698723554611206,
+    "learning_rate": 6.78e-07,
+    "num_tokens": 437710.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.875838592648506e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.325,
+    "step": 650
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011548621114343405,
+    "learning_rate": 6.775e-07,
+    "num_tokens": 438076.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.358682781457901e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3255,
+    "step": 651
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006847024778835475,
+    "learning_rate": 6.77e-07,
+    "num_tokens": 438972.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.094559699296951e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.326,
+    "step": 652
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007354238186962903,
+    "learning_rate": 6.765e-07,
+    "num_tokens": 439338.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0337291061878204e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3265,
+    "step": 653
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010975906625390053,
+    "learning_rate": 6.76e-07,
+    "num_tokens": 439704.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.489440470933914e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.327,
+    "step": 654
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011954187648370862,
+    "learning_rate": 6.754999999999999e-07,
+    "num_tokens": 440070.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.033891648054123e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3275,
+    "step": 655
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.011588593944907188,
+    "learning_rate": 6.75e-07,
+    "num_tokens": 440966.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00018292898312211037,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.328,
+    "step": 656
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006912227254360914,
+    "learning_rate": 6.745e-07,
+    "num_tokens": 441862.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.7865713238716125e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3285,
+    "step": 657
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2161142826080322,
+    "learning_rate": 6.74e-07,
+    "num_tokens": 442758.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8144999742507935,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8144999742507935,
+    "reward_std": 0.0035355305299162865,
+    "kl": 9.529199451208115e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.329,
+    "step": 658
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000648809946142137,
+    "learning_rate": 6.735e-07,
+    "num_tokens": 443124.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.019813448190689e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3295,
+    "step": 659
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.6099978089332581,
+    "learning_rate": 6.730000000000001e-07,
+    "num_tokens": 444020.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 2.8732232749462128e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.33,
+    "step": 660
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.014809012413025,
+    "learning_rate": 6.724999999999999e-07,
+    "num_tokens": 444916.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7904999852180481,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7904999852180481,
+    "reward_std": 0.037476640194654465,
+    "kl": 8.21063295006752e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3305,
+    "step": 661
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0332342386245728,
+    "learning_rate": 6.72e-07,
+    "num_tokens": 445812.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8144999742507935,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8144999742507935,
+    "reward_std": 0.0035355305299162865,
+    "kl": 5.087442696094513e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.331,
+    "step": 662
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9325398802757263,
+    "learning_rate": 6.714999999999999e-07,
+    "num_tokens": 446708.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 7.722713053226471e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3315,
+    "step": 663
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.077994465827942,
+    "learning_rate": 6.71e-07,
+    "num_tokens": 447604.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 8.442718535661697e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.332,
+    "step": 664
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.30242636799812317,
+    "learning_rate": 6.705e-07,
+    "num_tokens": 448500.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5914999842643738,
+    "rewards/environment_reward_verifier/std": 0.3047630190849304,
+    "reward": 0.5914999842643738,
+    "reward_std": 0.3047630190849304,
+    "kl": 1.6080215573310852e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3325,
+    "step": 665
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7816704511642456,
+    "learning_rate": 6.7e-07,
+    "num_tokens": 449396.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 5.314219743013382e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.333,
+    "step": 666
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7801264524459839,
+    "learning_rate": 6.695e-07,
+    "num_tokens": 450292.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 2.9692426323890686e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3335,
+    "step": 667
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009613597649149597,
+    "learning_rate": 6.69e-07,
+    "num_tokens": 450658.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9587186872959137e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.334,
+    "step": 668
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008051811018958688,
+    "learning_rate": 6.684999999999999e-07,
+    "num_tokens": 451554.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 3.367289900779724e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3345,
+    "step": 669
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9789057970046997,
+    "learning_rate": 6.68e-07,
+    "num_tokens": 452450.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 7.941573858261108e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.335,
+    "step": 670
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009357063099741936,
+    "learning_rate": 6.675e-07,
+    "num_tokens": 452816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.7661753594875336e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3355,
+    "step": 671
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8246026039123535,
+    "learning_rate": 6.67e-07,
+    "num_tokens": 453712.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8114999532699585,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8114999532699585,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.839656710624695e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.336,
+    "step": 672
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5829533338546753,
+    "learning_rate": 6.665e-07,
+    "num_tokens": 454608.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8355000019073486,
+    "rewards/environment_reward_verifier/std": 0.0007071398431435227,
+    "reward": 0.8355000019073486,
+    "reward_std": 0.0007071398431435227,
+    "kl": 4.0553510189056396e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3365,
+    "step": 673
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7374504208564758,
+    "learning_rate": 6.66e-07,
+    "num_tokens": 455504.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 2.423301339149475e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.337,
+    "step": 674
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2778427600860596,
+    "learning_rate": 6.654999999999999e-07,
+    "num_tokens": 456400.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 7.122103124856949e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3375,
+    "step": 675
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014428014401346445,
+    "learning_rate": 6.65e-07,
+    "num_tokens": 457296.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 4.827417433261871e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.338,
+    "step": 676
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6748918890953064,
+    "learning_rate": 6.645e-07,
+    "num_tokens": 458192.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7875000238418579,
+    "rewards/environment_reward_verifier/std": 0.05020460858941078,
+    "reward": 0.7875000238418579,
+    "reward_std": 0.05020460858941078,
+    "kl": 2.82973051071167e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3385,
+    "step": 677
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010371003299951553,
+    "learning_rate": 6.64e-07,
+    "num_tokens": 459088.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.760494291782379e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.339,
+    "step": 678
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008279599715024233,
+    "learning_rate": 6.635e-07,
+    "num_tokens": 459454.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.543387770652771e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3395,
+    "step": 679
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004288914205972105,
+    "learning_rate": 6.63e-07,
+    "num_tokens": 459820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.6702339053153992e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.34,
+    "step": 680
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0035996404476463795,
+    "learning_rate": 6.624999999999999e-07,
+    "num_tokens": 460716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 7.754005491733551e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3405,
+    "step": 681
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006002707523293793,
+    "learning_rate": 6.62e-07,
+    "num_tokens": 461612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8569999933242798,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8569999933242798,
+    "reward_std": 0.0,
+    "kl": 3.461819142103195e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.341,
+    "step": 682
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7093996405601501,
+    "learning_rate": 6.614999999999999e-07,
+    "num_tokens": 462508.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.346280962228775e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3415,
+    "step": 683
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025844546034932137,
+    "learning_rate": 6.61e-07,
+    "num_tokens": 462874.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.116499960422516e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.342,
+    "step": 684
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011869438458234072,
+    "learning_rate": 6.605e-07,
+    "num_tokens": 463770.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 4.194118082523346e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3425,
+    "step": 685
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9997851252555847,
+    "learning_rate": 6.6e-07,
+    "num_tokens": 464666.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 5.1662325859069824e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.343,
+    "step": 686
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6725564002990723,
+    "learning_rate": 6.595e-07,
+    "num_tokens": 465562.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.0244158804416656e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3435,
+    "step": 687
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6846553683280945,
+    "learning_rate": 6.59e-07,
+    "num_tokens": 466458.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7860000133514404,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7860000133514404,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.7189962565898895e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.344,
+    "step": 688
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6613869667053223,
+    "learning_rate": 6.584999999999999e-07,
+    "num_tokens": 467354.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.7700945287942886e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3445,
+    "step": 689
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001505712396465242,
+    "learning_rate": 6.58e-07,
+    "num_tokens": 468250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 4.06438484787941e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.345,
+    "step": 690
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004417377058416605,
+    "learning_rate": 6.575e-07,
+    "num_tokens": 468616.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.115785360336304e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3455,
+    "step": 691
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016008485108613968,
+    "learning_rate": 6.57e-07,
+    "num_tokens": 468982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.507973790168762e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.346,
+    "step": 692
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6884562373161316,
+    "learning_rate": 6.565e-07,
+    "num_tokens": 469878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6024999618530273,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6024999618530273,
+    "reward_std": 0.32031938433647156,
+    "kl": 2.653617411851883e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3465,
+    "step": 693
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010921740904450417,
+    "learning_rate": 6.56e-07,
+    "num_tokens": 470244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8137117624282837e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.347,
+    "step": 694
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6846423745155334,
+    "learning_rate": 6.554999999999999e-07,
+    "num_tokens": 471140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 3.712344914674759e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3475,
+    "step": 695
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0036911554634571075,
+    "learning_rate": 6.55e-07,
+    "num_tokens": 472036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.1732716858387e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.348,
+    "step": 696
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006061898893676698,
+    "learning_rate": 6.544999999999999e-07,
+    "num_tokens": 472932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8159999847412109,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8159999847412109,
+    "reward_std": 0.0,
+    "kl": 2.7766451239585876e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3485,
+    "step": 697
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002090150723233819,
+    "learning_rate": 6.54e-07,
+    "num_tokens": 473828.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 4.992447793483734e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.349,
+    "step": 698
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.531058430671692,
+    "learning_rate": 6.535e-07,
+    "num_tokens": 474724.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 5.740951746702194e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3495,
+    "step": 699
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5353614091873169,
+    "learning_rate": 6.53e-07,
+    "num_tokens": 475620.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.08909548819065094,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.08909548819065094,
+    "kl": 2.967100590467453e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.35,
+    "step": 700
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006890299846418202,
+    "learning_rate": 6.524999999999999e-07,
+    "num_tokens": 476516.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6377849280834198e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3505,
+    "step": 701
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011575064854696393,
+    "learning_rate": 6.52e-07,
+    "num_tokens": 476882.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6336871087551117e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.351,
+    "step": 702
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0071227550506592,
+    "learning_rate": 6.514999999999999e-07,
+    "num_tokens": 477778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7904999852180481,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7904999852180481,
+    "reward_std": 0.037476640194654465,
+    "kl": 5.2426010370254517e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3515,
+    "step": 703
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.6260432600975037,
+    "learning_rate": 6.51e-07,
+    "num_tokens": 478674.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 3.0035153031349182e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.352,
+    "step": 704
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009116759756579995,
+    "learning_rate": 6.505e-07,
+    "num_tokens": 479570.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 4.060380160808563e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3525,
+    "step": 705
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0030497321859002113,
+    "learning_rate": 6.5e-07,
+    "num_tokens": 479936.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.0684047639369965e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.353,
+    "step": 706
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006430986686609685,
+    "learning_rate": 6.495e-07,
+    "num_tokens": 480832.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 3.116205334663391e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3535,
+    "step": 707
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0158851146697998,
+    "learning_rate": 6.49e-07,
+    "num_tokens": 481728.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.7221390306949615e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.354,
+    "step": 708
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8351655006408691,
+    "learning_rate": 6.484999999999999e-07,
+    "num_tokens": 482624.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8454999923706055,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8454999923706055,
+    "reward_std": 0.014849262312054634,
+    "kl": 3.985455259680748e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3545,
+    "step": 709
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002636699238792062,
+    "learning_rate": 6.48e-07,
+    "num_tokens": 482990.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.9441511034965515e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.355,
+    "step": 710
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011992601212114096,
+    "learning_rate": 6.474999999999999e-07,
+    "num_tokens": 483886.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.492606967687607e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3555,
+    "step": 711
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006801988347433507,
+    "learning_rate": 6.47e-07,
+    "num_tokens": 484782.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 2.647656947374344e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.356,
+    "step": 712
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006278291693888605,
+    "learning_rate": 6.465e-07,
+    "num_tokens": 485148.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.96151265501976e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3565,
+    "step": 713
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.02269609458744526,
+    "learning_rate": 6.46e-07,
+    "num_tokens": 486044.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.00012513156980276108,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.357,
+    "step": 714
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2117421627044678,
+    "learning_rate": 6.454999999999999e-07,
+    "num_tokens": 486940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8264999985694885,
+    "rewards/environment_reward_verifier/std": 0.004949725698679686,
+    "reward": 0.8264999985694885,
+    "reward_std": 0.004949725698679686,
+    "kl": 8.92365351319313e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3575,
+    "step": 715
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8121581673622131,
+    "learning_rate": 6.45e-07,
+    "num_tokens": 487836.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 3.440864384174347e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.358,
+    "step": 716
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007526807021349669,
+    "learning_rate": 6.444999999999999e-07,
+    "num_tokens": 488732.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.0493363738059998e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3585,
+    "step": 717
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011233491823077202,
+    "learning_rate": 6.44e-07,
+    "num_tokens": 489098.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.566965460777283e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.359,
+    "step": 718
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9603006839752197,
+    "learning_rate": 6.435e-07,
+    "num_tokens": 489994.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 4.37488779425621e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3595,
+    "step": 719
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019995439797639847,
+    "learning_rate": 6.43e-07,
+    "num_tokens": 490890.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 2.917274832725525e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.36,
+    "step": 720
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8033301830291748,
+    "learning_rate": 6.424999999999999e-07,
+    "num_tokens": 491786.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 2.3120082914829254e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3605,
+    "step": 721
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010354184778407216,
+    "learning_rate": 6.42e-07,
+    "num_tokens": 492152.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.347732126712799e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.361,
+    "step": 722
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002867473755031824,
+    "learning_rate": 6.414999999999999e-07,
+    "num_tokens": 493048.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.4817646741867065e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3615,
+    "step": 723
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009290321613661945,
+    "learning_rate": 6.41e-07,
+    "num_tokens": 493414.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.566911280155182e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.362,
+    "step": 724
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007650686893612146,
+    "learning_rate": 6.404999999999999e-07,
+    "num_tokens": 493780.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.9818544387817383e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3625,
+    "step": 725
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6412078738212585,
+    "learning_rate": 6.4e-07,
+    "num_tokens": 494676.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8790000081062317,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8790000081062317,
+    "reward_std": 0.0014141954015940428,
+    "kl": 3.480538725852966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.363,
+    "step": 726
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7075743079185486,
+    "learning_rate": 6.395e-07,
+    "num_tokens": 495572.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 2.76053324341774e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3635,
+    "step": 727
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00047449395060539246,
+    "learning_rate": 6.389999999999999e-07,
+    "num_tokens": 495938.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.3587996363639832e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.364,
+    "step": 728
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2251524925231934,
+    "learning_rate": 6.384999999999999e-07,
+    "num_tokens": 496834.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.720726817846298e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3645,
+    "step": 729
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7717981934547424,
+    "learning_rate": 6.38e-07,
+    "num_tokens": 497730.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.5860575735569e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.365,
+    "step": 730
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9186346530914307,
+    "learning_rate": 6.374999999999999e-07,
+    "num_tokens": 498626.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.0021212929859757423,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.0021212929859757423,
+    "kl": 6.904173642396927e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3655,
+    "step": 731
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.84583979845047,
+    "learning_rate": 6.37e-07,
+    "num_tokens": 499522.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.0543265640735626e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.366,
+    "step": 732
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004621327097993344,
+    "learning_rate": 6.365e-07,
+    "num_tokens": 499888.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.1827796697616577e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3665,
+    "step": 733
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00255565345287323,
+    "learning_rate": 6.36e-07,
+    "num_tokens": 500254.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 7.13299959897995e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.367,
+    "step": 734
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000824491202365607,
+    "learning_rate": 6.354999999999999e-07,
+    "num_tokens": 500620.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.7968700528144836e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3675,
+    "step": 735
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008618003339506686,
+    "learning_rate": 6.35e-07,
+    "num_tokens": 501516.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 2.316851168870926e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.368,
+    "step": 736
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6351233720779419,
+    "learning_rate": 6.344999999999999e-07,
+    "num_tokens": 502412.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 4.462525248527527e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3685,
+    "step": 737
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8174920678138733,
+    "learning_rate": 6.34e-07,
+    "num_tokens": 503308.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 7.361825555562973e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.369,
+    "step": 738
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008763825171627104,
+    "learning_rate": 6.335e-07,
+    "num_tokens": 503674.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.976747393608093e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3695,
+    "step": 739
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007347882492467761,
+    "learning_rate": 6.33e-07,
+    "num_tokens": 504040.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9280781745910645e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.37,
+    "step": 740
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013616685755550861,
+    "learning_rate": 6.324999999999999e-07,
+    "num_tokens": 504406.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.791002720594406e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3705,
+    "step": 741
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5727549195289612,
+    "learning_rate": 6.319999999999999e-07,
+    "num_tokens": 505302.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.479250103235245e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.371,
+    "step": 742
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005594661342911422,
+    "learning_rate": 6.314999999999999e-07,
+    "num_tokens": 505668.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.248026430606842e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3715,
+    "step": 743
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012528691440820694,
+    "learning_rate": 6.31e-07,
+    "num_tokens": 506034.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.9058737456798553e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.372,
+    "step": 744
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000664975494146347,
+    "learning_rate": 6.304999999999999e-07,
+    "num_tokens": 506400.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.109034150838852e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3725,
+    "step": 745
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 5.891997814178467,
+    "learning_rate": 6.3e-07,
+    "num_tokens": 507296.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0005017649382352829,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.373,
+    "step": 746
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009146234951913357,
+    "learning_rate": 6.295e-07,
+    "num_tokens": 507662.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.234444350004196e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3735,
+    "step": 747
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008638282888568938,
+    "learning_rate": 6.289999999999999e-07,
+    "num_tokens": 508028.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.175996243953705e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.374,
+    "step": 748
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9354413151741028,
+    "learning_rate": 6.284999999999999e-07,
+    "num_tokens": 508924.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 5.358457565307617e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3745,
+    "step": 749
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8698471784591675,
+    "learning_rate": 6.28e-07,
+    "num_tokens": 509820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.928970545530319e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.375,
+    "step": 750
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6731522679328918,
+    "learning_rate": 6.274999999999999e-07,
+    "num_tokens": 510716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.055154334753751755,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.055154334753751755,
+    "kl": 3.010593354701996e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3755,
+    "step": 751
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010692239739000797,
+    "learning_rate": 6.27e-07,
+    "num_tokens": 511082.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.608370363712311e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.376,
+    "step": 752
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004261866211891174,
+    "learning_rate": 6.265e-07,
+    "num_tokens": 511448.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2502616047859192e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3765,
+    "step": 753
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.618039608001709,
+    "learning_rate": 6.26e-07,
+    "num_tokens": 512344.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 2.420227974653244e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.377,
+    "step": 754
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010167269501835108,
+    "learning_rate": 6.254999999999999e-07,
+    "num_tokens": 512710.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.890918403863907e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3775,
+    "step": 755
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025685280561447144,
+    "learning_rate": 6.249999999999999e-07,
+    "num_tokens": 513076.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.952361971139908e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.378,
+    "step": 756
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007701526628807187,
+    "learning_rate": 6.245e-07,
+    "num_tokens": 513442.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9436702132225037e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3785,
+    "step": 757
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014547390164807439,
+    "learning_rate": 6.24e-07,
+    "num_tokens": 514338.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.708565443754196e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.379,
+    "step": 758
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010569763835519552,
+    "learning_rate": 6.235e-07,
+    "num_tokens": 514704.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9928982257843018e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3795,
+    "step": 759
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009250293951481581,
+    "learning_rate": 6.23e-07,
+    "num_tokens": 515600.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 3.913603723049164e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.38,
+    "step": 760
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012653374578803778,
+    "learning_rate": 6.225000000000001e-07,
+    "num_tokens": 515966.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.828294575214386e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3805,
+    "step": 761
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010828955564647913,
+    "learning_rate": 6.219999999999999e-07,
+    "num_tokens": 516332.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.467647522687912e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.381,
+    "step": 762
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002116474788635969,
+    "learning_rate": 6.215e-07,
+    "num_tokens": 516698.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.189725637435913e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3815,
+    "step": 763
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8476846814155579,
+    "learning_rate": 6.21e-07,
+    "num_tokens": 517594.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.846500039100647,
+    "rewards/environment_reward_verifier/std": 0.014849219471216202,
+    "reward": 0.846500039100647,
+    "reward_std": 0.014849220402538776,
+    "kl": 4.07882034778595e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.382,
+    "step": 764
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011961472919210792,
+    "learning_rate": 6.205e-07,
+    "num_tokens": 517960.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.249850124120712e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3825,
+    "step": 765
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7129542231559753,
+    "learning_rate": 6.2e-07,
+    "num_tokens": 518856.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 8.251797407865524e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.383,
+    "step": 766
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7722144722938538,
+    "learning_rate": 6.195000000000001e-07,
+    "num_tokens": 519752.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 4.004407674074173e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3835,
+    "step": 767
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015368679305538535,
+    "learning_rate": 6.189999999999999e-07,
+    "num_tokens": 520648.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.238464266061783e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.384,
+    "step": 768
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7801802754402161,
+    "learning_rate": 6.185e-07,
+    "num_tokens": 521544.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 5.952734500169754e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3845,
+    "step": 769
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008700647740624845,
+    "learning_rate": 6.18e-07,
+    "num_tokens": 521910.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.245007246732712e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.385,
+    "step": 770
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9259238839149475,
+    "learning_rate": 6.175e-07,
+    "num_tokens": 522806.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 3.273133188486099e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3855,
+    "step": 771
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014969698386266828,
+    "learning_rate": 6.17e-07,
+    "num_tokens": 523172.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5686807930469513e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.386,
+    "step": 772
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006186207756400108,
+    "learning_rate": 6.165e-07,
+    "num_tokens": 523538.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.09570774435997e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3865,
+    "step": 773
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1589457988739014,
+    "learning_rate": 6.16e-07,
+    "num_tokens": 524434.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.011313731782138348,
+    "kl": 4.557054489850998e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.387,
+    "step": 774
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005518601974472404,
+    "learning_rate": 6.155e-07,
+    "num_tokens": 524800.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.692360430955887e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3875,
+    "step": 775
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001120497123338282,
+    "learning_rate": 6.149999999999999e-07,
+    "num_tokens": 525166.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.9140693843364716e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.388,
+    "step": 776
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7982441782951355,
+    "learning_rate": 6.145e-07,
+    "num_tokens": 526062.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.4784508645534515e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3885,
+    "step": 777
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0027774127665907145,
+    "learning_rate": 6.14e-07,
+    "num_tokens": 526958.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.057244122028351e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.389,
+    "step": 778
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011340905912220478,
+    "learning_rate": 6.135e-07,
+    "num_tokens": 527324.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.678180605173111e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3895,
+    "step": 779
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006853631930425763,
+    "learning_rate": 6.13e-07,
+    "num_tokens": 527690.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7861446142196655e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.39,
+    "step": 780
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.009597169235348701,
+    "learning_rate": 6.125000000000001e-07,
+    "num_tokens": 528056.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00019149668514728546,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3905,
+    "step": 781
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004018091131001711,
+    "learning_rate": 6.119999999999999e-07,
+    "num_tokens": 528952.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.00010970886796712875,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.391,
+    "step": 782
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.126266360282898,
+    "learning_rate": 6.115e-07,
+    "num_tokens": 529848.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 5.193334072828293e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3915,
+    "step": 783
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.9128333330154419,
+    "learning_rate": 6.11e-07,
+    "num_tokens": 530744.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 2.9579736292362213e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.392,
+    "step": 784
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008193780086003244,
+    "learning_rate": 6.105e-07,
+    "num_tokens": 531110.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7962028980255127e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3925,
+    "step": 785
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7476780414581299,
+    "learning_rate": 6.1e-07,
+    "num_tokens": 532006.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 4.246272146701813e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.393,
+    "step": 786
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006282931426540017,
+    "learning_rate": 6.095e-07,
+    "num_tokens": 532372.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3266300559043884e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3935,
+    "step": 787
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.8928757905960083,
+    "learning_rate": 6.089999999999999e-07,
+    "num_tokens": 533268.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 7.044710218906403e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.394,
+    "step": 788
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.506048858165741,
+    "learning_rate": 6.085e-07,
+    "num_tokens": 534164.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 4.570838063955307e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3945,
+    "step": 789
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9309393763542175,
+    "learning_rate": 6.079999999999999e-07,
+    "num_tokens": 535060.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 6.131362169981003e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.395,
+    "step": 790
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010613016784191132,
+    "learning_rate": 6.075e-07,
+    "num_tokens": 535426.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.676116466522217e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3955,
+    "step": 791
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1940882205963135,
+    "learning_rate": 6.07e-07,
+    "num_tokens": 536322.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5734999775886536,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5734999775886536,
+    "reward_std": 0.27082186937332153,
+    "kl": 7.629208266735077e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.396,
+    "step": 792
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001403618953190744,
+    "learning_rate": 6.065e-07,
+    "num_tokens": 537218.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 4.445761442184448e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3965,
+    "step": 793
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009353617206215858,
+    "learning_rate": 6.06e-07,
+    "num_tokens": 537584.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.106387495994568e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.397,
+    "step": 794
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005145937902852893,
+    "learning_rate": 6.055e-07,
+    "num_tokens": 537950.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8003938496112823e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3975,
+    "step": 795
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008968059555627406,
+    "learning_rate": 6.049999999999999e-07,
+    "num_tokens": 538846.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.0,
+    "kl": 5.541834980249405e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.398,
+    "step": 796
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011200441513210535,
+    "learning_rate": 6.045e-07,
+    "num_tokens": 539212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.7895126044750214e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3985,
+    "step": 797
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002243278082460165,
+    "learning_rate": 6.04e-07,
+    "num_tokens": 540108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 6.118416786193848e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.399,
+    "step": 798
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012119788443669677,
+    "learning_rate": 6.035e-07,
+    "num_tokens": 541004.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.752244472503662e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3995,
+    "step": 799
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011967993341386318,
+    "learning_rate": 6.03e-07,
+    "num_tokens": 541370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7150847017765045e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4,
+    "step": 800
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001629934529773891,
+    "learning_rate": 6.025000000000001e-07,
+    "num_tokens": 542266.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.935411900281906e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4005,
+    "step": 801
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8221452236175537,
+    "learning_rate": 6.019999999999999e-07,
+    "num_tokens": 543162.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 7.931981235742569e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.401,
+    "step": 802
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.007462856359779835,
+    "learning_rate": 6.015e-07,
+    "num_tokens": 543528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.3334981203079224e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4015,
+    "step": 803
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001739903469569981,
+    "learning_rate": 6.009999999999999e-07,
+    "num_tokens": 543894.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.858190029859543e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.402,
+    "step": 804
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5326638221740723,
+    "learning_rate": 6.005e-07,
+    "num_tokens": 544790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8400000333786011,
+    "rewards/environment_reward_verifier/std": 0.056568533182144165,
+    "reward": 0.8400000333786011,
+    "reward_std": 0.056568533182144165,
+    "kl": 1.197773963212967e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4025,
+    "step": 805
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001234200200997293,
+    "learning_rate": 6e-07,
+    "num_tokens": 545156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.440639168024063e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.403,
+    "step": 806
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015355065697804093,
+    "learning_rate": 5.995e-07,
+    "num_tokens": 545522.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.369858652353287e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4035,
+    "step": 807
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006882250891067088,
+    "learning_rate": 5.989999999999999e-07,
+    "num_tokens": 545888.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6108697056770325e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.404,
+    "step": 808
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 4.64975643157959,
+    "learning_rate": 5.985e-07,
+    "num_tokens": 546784.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 8.086487650871277e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4045,
+    "step": 809
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008724891813471913,
+    "learning_rate": 5.979999999999999e-07,
+    "num_tokens": 547150.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.3602118492126465e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.405,
+    "step": 810
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4123207628726959,
+    "learning_rate": 5.975e-07,
+    "num_tokens": 548046.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 1.1555850505828857e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4055,
+    "step": 811
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8788225054740906,
+    "learning_rate": 5.97e-07,
+    "num_tokens": 548942.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.427080810070038e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.406,
+    "step": 812
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000729935010895133,
+    "learning_rate": 5.965e-07,
+    "num_tokens": 549308.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.465769648551941e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4065,
+    "step": 813
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005977301043458283,
+    "learning_rate": 5.96e-07,
+    "num_tokens": 549674.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.3939104974269867e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.407,
+    "step": 814
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006024898029863834,
+    "learning_rate": 5.955e-07,
+    "num_tokens": 550040.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.8741004168987274e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4075,
+    "step": 815
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6240323185920715,
+    "learning_rate": 5.949999999999999e-07,
+    "num_tokens": 550936.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.796999990940094,
+    "rewards/environment_reward_verifier/std": 0.01272792648524046,
+    "reward": 0.796999990940094,
+    "reward_std": 0.01272792648524046,
+    "kl": 2.526957541704178e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.408,
+    "step": 816
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010339779546484351,
+    "learning_rate": 5.945e-07,
+    "num_tokens": 551302.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.389563739299774e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4085,
+    "step": 817
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001581298653036356,
+    "learning_rate": 5.939999999999999e-07,
+    "num_tokens": 551668.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.8718957006931305e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.409,
+    "step": 818
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028730963822454214,
+    "learning_rate": 5.935e-07,
+    "num_tokens": 552564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.765507325530052e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4095,
+    "step": 819
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5237371921539307,
+    "learning_rate": 5.93e-07,
+    "num_tokens": 553460.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7975000143051147,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.7975000143051147,
+    "reward_std": 0.06434673070907593,
+    "kl": 4.1239894926548004e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.41,
+    "step": 820
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.22981564700603485,
+    "learning_rate": 5.925e-07,
+    "num_tokens": 554356.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 8.274801075458527e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4105,
+    "step": 821
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000864826375618577,
+    "learning_rate": 5.919999999999999e-07,
+    "num_tokens": 554722.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.267584204673767e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.411,
+    "step": 822
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005777585902251303,
+    "learning_rate": 5.915e-07,
+    "num_tokens": 555618.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 3.0573923140764236e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4115,
+    "step": 823
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007653327193111181,
+    "learning_rate": 5.909999999999999e-07,
+    "num_tokens": 555984.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.0934268832206726e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.412,
+    "step": 824
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008081765263341367,
+    "learning_rate": 5.905e-07,
+    "num_tokens": 556350.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.2024458050727844e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4125,
+    "step": 825
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008603125461377203,
+    "learning_rate": 5.9e-07,
+    "num_tokens": 556716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.314949572086334e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.413,
+    "step": 826
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6024312973022461,
+    "learning_rate": 5.895e-07,
+    "num_tokens": 557612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.1016767024993896e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4135,
+    "step": 827
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9248777627944946,
+    "learning_rate": 5.89e-07,
+    "num_tokens": 558508.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.024041658267378807,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.024041658267378807,
+    "kl": 3.932788968086243e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.414,
+    "step": 828
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0024738821666687727,
+    "learning_rate": 5.885e-07,
+    "num_tokens": 559404.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 5.822349339723587e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4145,
+    "step": 829
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.48234227299690247,
+    "learning_rate": 5.879999999999999e-07,
+    "num_tokens": 560300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 1.576356589794159e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.415,
+    "step": 830
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009319159435108304,
+    "learning_rate": 5.875e-07,
+    "num_tokens": 561196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.444969817996025e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4155,
+    "step": 831
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010825677309185266,
+    "learning_rate": 5.87e-07,
+    "num_tokens": 562092.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.0588900446891785e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.416,
+    "step": 832
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5465240478515625,
+    "learning_rate": 5.865e-07,
+    "num_tokens": 562988.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 6.101001054048538e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4165,
+    "step": 833
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8875114321708679,
+    "learning_rate": 5.86e-07,
+    "num_tokens": 563884.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8109999895095825,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8109999895095825,
+    "reward_std": 0.01555635966360569,
+    "kl": 6.432924419641495e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.417,
+    "step": 834
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6885401010513306,
+    "learning_rate": 5.854999999999999e-07,
+    "num_tokens": 564780.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 4.6242959797382355e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4175,
+    "step": 835
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006994555704295635,
+    "learning_rate": 5.849999999999999e-07,
+    "num_tokens": 565146.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00016637705266475677,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.418,
+    "step": 836
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013478395994752645,
+    "learning_rate": 5.845e-07,
+    "num_tokens": 565512.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7138739824295044e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4185,
+    "step": 837
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005000046454370022,
+    "learning_rate": 5.839999999999999e-07,
+    "num_tokens": 565878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.910266190767288e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.419,
+    "step": 838
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.3202613592147827,
+    "learning_rate": 5.835e-07,
+    "num_tokens": 566774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 4.958640784025192e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4195,
+    "step": 839
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004527856130152941,
+    "learning_rate": 5.83e-07,
+    "num_tokens": 567670.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 9.60715115070343e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.42,
+    "step": 840
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012674469035118818,
+    "learning_rate": 5.825e-07,
+    "num_tokens": 568036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.963018000125885e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4205,
+    "step": 841
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.979890763759613,
+    "learning_rate": 5.819999999999999e-07,
+    "num_tokens": 568932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8450000286102295,
+    "rewards/environment_reward_verifier/std": 0.014142164029181004,
+    "reward": 0.8450000286102295,
+    "reward_std": 0.014142164029181004,
+    "kl": 5.4290518164634705e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.421,
+    "step": 842
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002009020186960697,
+    "learning_rate": 5.815e-07,
+    "num_tokens": 569298.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.473142325878143e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4215,
+    "step": 843
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000959740427788347,
+    "learning_rate": 5.809999999999999e-07,
+    "num_tokens": 569664.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.216524004936218e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.422,
+    "step": 844
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007338738651014864,
+    "learning_rate": 5.805e-07,
+    "num_tokens": 570030.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.0549243092536926e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4225,
+    "step": 845
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010351468808948994,
+    "learning_rate": 5.8e-07,
+    "num_tokens": 570926.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 3.2665207982063293e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.423,
+    "step": 846
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.825543165206909,
+    "learning_rate": 5.795e-07,
+    "num_tokens": 571822.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.039597976952791214,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.039597976952791214,
+    "kl": 6.438978016376495e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4235,
+    "step": 847
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006451636436395347,
+    "learning_rate": 5.79e-07,
+    "num_tokens": 572718.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.265535295009613e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.424,
+    "step": 848
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7045238018035889,
+    "learning_rate": 5.784999999999999e-07,
+    "num_tokens": 573614.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.598459392786026e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4245,
+    "step": 849
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010145172709599137,
+    "learning_rate": 5.779999999999999e-07,
+    "num_tokens": 573980.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.5431083738803864e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.425,
+    "step": 850
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021720363292843103,
+    "learning_rate": 5.775e-07,
+    "num_tokens": 574346.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.1764619052410126e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4255,
+    "step": 851
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5564368963241577,
+    "learning_rate": 5.769999999999999e-07,
+    "num_tokens": 575242.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8289999961853027,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8289999961853027,
+    "reward_std": 0.0014141954015940428,
+    "kl": 3.677885979413986e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.426,
+    "step": 852
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6709645986557007,
+    "learning_rate": 5.765e-07,
+    "num_tokens": 576138.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5989999771118164,
+    "rewards/environment_reward_verifier/std": 0.30971279740333557,
+    "reward": 0.5989999771118164,
+    "reward_std": 0.30971279740333557,
+    "kl": 3.970880061388016e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4265,
+    "step": 853
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8509161472320557,
+    "learning_rate": 5.76e-07,
+    "num_tokens": 577034.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 7.42059201002121e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.427,
+    "step": 854
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9860825538635254,
+    "learning_rate": 5.755e-07,
+    "num_tokens": 577930.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8285000324249268,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8285000324249268,
+    "reward_std": 0.030405621975660324,
+    "kl": 6.154272705316544e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4275,
+    "step": 855
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008337794570252299,
+    "learning_rate": 5.749999999999999e-07,
+    "num_tokens": 578296.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.50000336766243e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.428,
+    "step": 856
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8874496221542358,
+    "learning_rate": 5.745e-07,
+    "num_tokens": 579192.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8050000071525574,
+    "rewards/environment_reward_verifier/std": 0.01272792648524046,
+    "reward": 0.8050000071525574,
+    "reward_std": 0.01272792648524046,
+    "kl": 5.4119154810905457e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4285,
+    "step": 857
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4810936152935028,
+    "learning_rate": 5.739999999999999e-07,
+    "num_tokens": 580088.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.1266750991344452e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.429,
+    "step": 858
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000799552770331502,
+    "learning_rate": 5.735e-07,
+    "num_tokens": 580454.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.109406679868698e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4295,
+    "step": 859
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001031473628245294,
+    "learning_rate": 5.73e-07,
+    "num_tokens": 580820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.3907050490379333e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.43,
+    "step": 860
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7290229201316833,
+    "learning_rate": 5.725e-07,
+    "num_tokens": 581716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.884119749069214e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4305,
+    "step": 861
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011147563345730305,
+    "learning_rate": 5.719999999999999e-07,
+    "num_tokens": 582082.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.047900438308716e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.431,
+    "step": 862
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013581543462350965,
+    "learning_rate": 5.715e-07,
+    "num_tokens": 582978.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 4.9899332225322723e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4315,
+    "step": 863
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9787481427192688,
+    "learning_rate": 5.709999999999999e-07,
+    "num_tokens": 583874.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.582518547773361e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.432,
+    "step": 864
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002675174968317151,
+    "learning_rate": 5.705e-07,
+    "num_tokens": 584770.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 5.698762834072113e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4325,
+    "step": 865
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007517149788327515,
+    "learning_rate": 5.699999999999999e-07,
+    "num_tokens": 585666.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 3.350060433149338e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.433,
+    "step": 866
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011958049144595861,
+    "learning_rate": 5.695e-07,
+    "num_tokens": 586032.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.591699689626694e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4335,
+    "step": 867
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009895452531054616,
+    "learning_rate": 5.69e-07,
+    "num_tokens": 586928.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.904663026332855e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.434,
+    "step": 868
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.3839372396469116,
+    "learning_rate": 5.684999999999999e-07,
+    "num_tokens": 587824.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.609499990940094,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.609499990940094,
+    "reward_std": 0.32031938433647156,
+    "kl": 7.07460567355156e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4345,
+    "step": 869
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007765606278553605,
+    "learning_rate": 5.679999999999999e-07,
+    "num_tokens": 588720.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.7239322662353516e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.435,
+    "step": 870
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011798151535913348,
+    "learning_rate": 5.675e-07,
+    "num_tokens": 589086.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7165748178958893e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4355,
+    "step": 871
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6472865343093872,
+    "learning_rate": 5.669999999999999e-07,
+    "num_tokens": 589982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.387965261936188e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.436,
+    "step": 872
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7618951797485352,
+    "learning_rate": 5.665e-07,
+    "num_tokens": 590878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 4.90797683596611e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4365,
+    "step": 873
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013739175628870726,
+    "learning_rate": 5.66e-07,
+    "num_tokens": 591244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.353917807340622e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.437,
+    "step": 874
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8317199945449829,
+    "learning_rate": 5.655e-07,
+    "num_tokens": 592140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.7659890949726105e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4375,
+    "step": 875
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7165759801864624,
+    "learning_rate": 5.649999999999999e-07,
+    "num_tokens": 593036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8100000023841858,
+    "rewards/environment_reward_verifier/std": 0.014142122119665146,
+    "reward": 0.8100000023841858,
+    "reward_std": 0.014142122119665146,
+    "kl": 3.2602809369564056e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.438,
+    "step": 876
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.012723397463560104,
+    "learning_rate": 5.645e-07,
+    "num_tokens": 593932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8429999947547913,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8429999947547913,
+    "reward_std": 0.0,
+    "kl": 5.6617893278598785e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4385,
+    "step": 877
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.776158332824707,
+    "learning_rate": 5.639999999999999e-07,
+    "num_tokens": 594828.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 3.9394013583660126e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.439,
+    "step": 878
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008882369729690254,
+    "learning_rate": 5.635e-07,
+    "num_tokens": 595194.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5136396288871765e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4395,
+    "step": 879
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.4940199851989746,
+    "learning_rate": 5.629999999999999e-07,
+    "num_tokens": 596090.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.011313731782138348,
+    "kl": 0.0009514158591628075,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.44,
+    "step": 880
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9574906826019287,
+    "learning_rate": 5.625e-07,
+    "num_tokens": 596986.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 5.468260496854782e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4405,
+    "step": 881
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001270653447136283,
+    "learning_rate": 5.620000000000001e-07,
+    "num_tokens": 597882.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.908163100481033e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.441,
+    "step": 882
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9686869978904724,
+    "learning_rate": 5.614999999999999e-07,
+    "num_tokens": 598778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 9.389035403728485e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4415,
+    "step": 883
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009024463943205774,
+    "learning_rate": 5.61e-07,
+    "num_tokens": 599144.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.2508356273174286e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.442,
+    "step": 884
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011521761771291494,
+    "learning_rate": 5.605e-07,
+    "num_tokens": 600040.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 4.3111853301525116e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4425,
+    "step": 885
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008811916341073811,
+    "learning_rate": 5.6e-07,
+    "num_tokens": 600406.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.8091872334480286e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.443,
+    "step": 886
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005357464542612433,
+    "learning_rate": 5.595e-07,
+    "num_tokens": 600772.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.8646009266376495e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4435,
+    "step": 887
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012236462207511067,
+    "learning_rate": 5.590000000000001e-07,
+    "num_tokens": 601668.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.382999986410141,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.382999986410141,
+    "reward_std": 0.0,
+    "kl": 3.3863820135593414e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.444,
+    "step": 888
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015359098324552178,
+    "learning_rate": 5.584999999999999e-07,
+    "num_tokens": 602564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 7.446110248565674e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4445,
+    "step": 889
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7075293660163879,
+    "learning_rate": 5.58e-07,
+    "num_tokens": 603460.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 2.532079815864563e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.445,
+    "step": 890
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6647194027900696,
+    "learning_rate": 5.575e-07,
+    "num_tokens": 604356.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 2.183765172958374e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4455,
+    "step": 891
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005753295263275504,
+    "learning_rate": 5.57e-07,
+    "num_tokens": 604722.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.3801269233226776e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.446,
+    "step": 892
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006327761220745742,
+    "learning_rate": 5.565e-07,
+    "num_tokens": 605088.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9845163226127625e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4465,
+    "step": 893
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0625728368759155,
+    "learning_rate": 5.560000000000001e-07,
+    "num_tokens": 605984.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.06434673070907593,
+    "kl": 2.457946538925171e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.447,
+    "step": 894
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012178801698610187,
+    "learning_rate": 5.555e-07,
+    "num_tokens": 606880.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.2179209887981415e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4475,
+    "step": 895
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002682629507035017,
+    "learning_rate": 5.55e-07,
+    "num_tokens": 607776.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 4.859268665313721e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.448,
+    "step": 896
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.45517367124557495,
+    "learning_rate": 5.544999999999999e-07,
+    "num_tokens": 608672.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5924999713897705,
+    "rewards/environment_reward_verifier/std": 0.3019345998764038,
+    "reward": 0.5924999713897705,
+    "reward_std": 0.3019345700740814,
+    "kl": 1.2828037142753601e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4485,
+    "step": 897
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000905574590433389,
+    "learning_rate": 5.54e-07,
+    "num_tokens": 609038.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.830902278423309e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.449,
+    "step": 898
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.8212804794311523,
+    "learning_rate": 5.535e-07,
+    "num_tokens": 609934.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 0.0011572809889912605,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4495,
+    "step": 899
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000676330178976059,
+    "learning_rate": 5.53e-07,
+    "num_tokens": 610830.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 2.8536655008792877e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.45,
+    "step": 900
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011877953074872494,
+    "learning_rate": 5.525e-07,
+    "num_tokens": 611196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3439526557922363e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4505,
+    "step": 901
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007618311792612076,
+    "learning_rate": 5.520000000000001e-07,
+    "num_tokens": 611562.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.4904886484146118e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.451,
+    "step": 902
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006666177650913596,
+    "learning_rate": 5.514999999999999e-07,
+    "num_tokens": 611928.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9773451387882233e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4515,
+    "step": 903
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002373509109020233,
+    "learning_rate": 5.51e-07,
+    "num_tokens": 612824.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.090756505727768e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.452,
+    "step": 904
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008277193992398679,
+    "learning_rate": 5.505e-07,
+    "num_tokens": 613720.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.119984805583954e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4525,
+    "step": 905
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009345367434434593,
+    "learning_rate": 5.5e-07,
+    "num_tokens": 614086.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.3725442588329315e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.453,
+    "step": 906
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.4221453666687012,
+    "learning_rate": 5.495e-07,
+    "num_tokens": 614982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 0.00010339450091123581,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4535,
+    "step": 907
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000370870839105919,
+    "learning_rate": 5.490000000000001e-07,
+    "num_tokens": 615878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 1.245737075805664e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.454,
+    "step": 908
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.78106290102005,
+    "learning_rate": 5.484999999999999e-07,
+    "num_tokens": 616774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7904999852180481,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7904999852180481,
+    "reward_std": 0.037476640194654465,
+    "kl": 3.344472497701645e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4545,
+    "step": 909
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025292513892054558,
+    "learning_rate": 5.48e-07,
+    "num_tokens": 617140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.578009247779846e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.455,
+    "step": 910
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011718255700543523,
+    "learning_rate": 5.474999999999999e-07,
+    "num_tokens": 617506.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.5919401347637177e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4555,
+    "step": 911
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2116985321044922,
+    "learning_rate": 5.47e-07,
+    "num_tokens": 618402.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 7.627252489328384e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.456,
+    "step": 912
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1670100688934326,
+    "learning_rate": 5.465e-07,
+    "num_tokens": 619298.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 6.155204027891159e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4565,
+    "step": 913
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.656712532043457,
+    "learning_rate": 5.46e-07,
+    "num_tokens": 620194.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.2359192371368408e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.457,
+    "step": 914
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8736714124679565,
+    "learning_rate": 5.455e-07,
+    "num_tokens": 621090.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5900000333786011,
+    "rewards/environment_reward_verifier/std": 0.29698485136032104,
+    "reward": 0.5900000333786011,
+    "reward_std": 0.29698485136032104,
+    "kl": 3.801286220550537e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4575,
+    "step": 915
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7588840126991272,
+    "learning_rate": 5.45e-07,
+    "num_tokens": 621986.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.564691334962845e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.458,
+    "step": 916
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008407433633692563,
+    "learning_rate": 5.444999999999999e-07,
+    "num_tokens": 622882.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.4014304876327515e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4585,
+    "step": 917
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5819631218910217,
+    "learning_rate": 5.44e-07,
+    "num_tokens": 623778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 3.1919218599796295e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.459,
+    "step": 918
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5659723281860352,
+    "learning_rate": 5.435e-07,
+    "num_tokens": 624674.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5900000333786011,
+    "rewards/environment_reward_verifier/std": 0.29698485136032104,
+    "reward": 0.5900000333786011,
+    "reward_std": 0.29698485136032104,
+    "kl": 5.887821316719055e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4595,
+    "step": 919
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001182614709250629,
+    "learning_rate": 5.43e-07,
+    "num_tokens": 625040.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.116911441087723e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.46,
+    "step": 920
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0874000787734985,
+    "learning_rate": 5.425e-07,
+    "num_tokens": 625936.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.06434673070907593,
+    "kl": 4.7031790018081665e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4605,
+    "step": 921
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7091130018234253,
+    "learning_rate": 5.420000000000001e-07,
+    "num_tokens": 626832.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.444124013185501e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.461,
+    "step": 922
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008175342227332294,
+    "learning_rate": 5.414999999999999e-07,
+    "num_tokens": 627198.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.716442734003067e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4615,
+    "step": 923
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007053024601191282,
+    "learning_rate": 5.41e-07,
+    "num_tokens": 627564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.289617598056793e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.462,
+    "step": 924
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003715792205184698,
+    "learning_rate": 5.405e-07,
+    "num_tokens": 627930.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.268693298101425e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4625,
+    "step": 925
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013841136824339628,
+    "learning_rate": 5.4e-07,
+    "num_tokens": 628826.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.133116453886032e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.463,
+    "step": 926
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.3961053192615509,
+    "learning_rate": 5.395e-07,
+    "num_tokens": 629722.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7944999933242798,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7944999933242798,
+    "reward_std": 0.0502045676112175,
+    "kl": 9.655952453613281e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4635,
+    "step": 927
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015052658272907138,
+    "learning_rate": 5.39e-07,
+    "num_tokens": 630088.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.967341035604477e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.464,
+    "step": 928
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00031154241878539324,
+    "learning_rate": 5.384999999999999e-07,
+    "num_tokens": 630454.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.813345968723297e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4645,
+    "step": 929
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005336882313713431,
+    "learning_rate": 5.38e-07,
+    "num_tokens": 630820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.9521452486515045e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.465,
+    "step": 930
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0018927346682175994,
+    "learning_rate": 5.374999999999999e-07,
+    "num_tokens": 631716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 6.585754454135895e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4655,
+    "step": 931
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0327850580215454,
+    "learning_rate": 5.37e-07,
+    "num_tokens": 632612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8365000486373901,
+    "rewards/environment_reward_verifier/std": 0.026162952184677124,
+    "reward": 0.8365000486373901,
+    "reward_std": 0.026162952184677124,
+    "kl": 5.525583401322365e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.466,
+    "step": 932
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016987278359010816,
+    "learning_rate": 5.365e-07,
+    "num_tokens": 632978.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.136205047369003e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4665,
+    "step": 933
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009261802188120782,
+    "learning_rate": 5.36e-07,
+    "num_tokens": 633344.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.399886190891266e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.467,
+    "step": 934
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008992516668513417,
+    "learning_rate": 5.355e-07,
+    "num_tokens": 634240.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 4.233699291944504e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4675,
+    "step": 935
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9115592241287231,
+    "learning_rate": 5.35e-07,
+    "num_tokens": 635136.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.824999988079071,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.824999988079071,
+    "reward_std": 0.011313731782138348,
+    "kl": 4.604365676641464e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.468,
+    "step": 936
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007278263801708817,
+    "learning_rate": 5.344999999999999e-07,
+    "num_tokens": 636032.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 3.4401193261146545e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4685,
+    "step": 937
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010212017223238945,
+    "learning_rate": 5.34e-07,
+    "num_tokens": 636928.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 4.621315747499466e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.469,
+    "step": 938
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007903206860646605,
+    "learning_rate": 5.335e-07,
+    "num_tokens": 637824.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8349999785423279,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8349999785423279,
+    "reward_std": 0.0,
+    "kl": 3.7049874663352966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4695,
+    "step": 939
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013730695936828852,
+    "learning_rate": 5.33e-07,
+    "num_tokens": 638190.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.6928955018520355e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.47,
+    "step": 940
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7030513882637024,
+    "learning_rate": 5.325e-07,
+    "num_tokens": 639086.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 2.5019049644470215e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4705,
+    "step": 941
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.9748480916023254,
+    "learning_rate": 5.32e-07,
+    "num_tokens": 639982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 4.683062434196472e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.471,
+    "step": 942
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008724030922167003,
+    "learning_rate": 5.314999999999999e-07,
+    "num_tokens": 640878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 2.5467947125434875e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4715,
+    "step": 943
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0023628976196050644,
+    "learning_rate": 5.31e-07,
+    "num_tokens": 641244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.564450889825821e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.472,
+    "step": 944
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7218869924545288,
+    "learning_rate": 5.304999999999999e-07,
+    "num_tokens": 642140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 1.4922581613063812e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4725,
+    "step": 945
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009410440688952804,
+    "learning_rate": 5.3e-07,
+    "num_tokens": 642506.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.3725594878196716e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.473,
+    "step": 946
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9045856595039368,
+    "learning_rate": 5.295e-07,
+    "num_tokens": 643402.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8365000486373901,
+    "rewards/environment_reward_verifier/std": 0.01909189112484455,
+    "reward": 0.8365000486373901,
+    "reward_std": 0.01909189112484455,
+    "kl": 3.302842378616333e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4735,
+    "step": 947
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006632182630710304,
+    "learning_rate": 5.29e-07,
+    "num_tokens": 644298.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 2.4668872356414795e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.474,
+    "step": 948
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006489086663350463,
+    "learning_rate": 5.284999999999999e-07,
+    "num_tokens": 644664.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.09748575091362e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4745,
+    "step": 949
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9527900815010071,
+    "learning_rate": 5.28e-07,
+    "num_tokens": 645560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 6.148312240839005e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.475,
+    "step": 950
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9770010113716125,
+    "learning_rate": 5.274999999999999e-07,
+    "num_tokens": 646456.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.6250799894332886e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4755,
+    "step": 951
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007939549977891147,
+    "learning_rate": 5.27e-07,
+    "num_tokens": 647352.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 3.37185338139534e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.476,
+    "step": 952
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007053684676066041,
+    "learning_rate": 5.265e-07,
+    "num_tokens": 647718.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.0064024031162262e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4765,
+    "step": 953
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.06403394043445587,
+    "learning_rate": 5.26e-07,
+    "num_tokens": 648614.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 0.001065908931195736,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.477,
+    "step": 954
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7209022641181946,
+    "learning_rate": 5.255e-07,
+    "num_tokens": 649510.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.011313731782138348,
+    "kl": 4.2875297367572784e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4775,
+    "step": 955
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00426756776869297,
+    "learning_rate": 5.25e-07,
+    "num_tokens": 650406.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8230000138282776,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8230000138282776,
+    "reward_std": 0.0,
+    "kl": 0.00011035241186618805,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.478,
+    "step": 956
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001966584473848343,
+    "learning_rate": 5.244999999999999e-07,
+    "num_tokens": 650772.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.261095404624939e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4785,
+    "step": 957
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5687603950500488,
+    "learning_rate": 5.24e-07,
+    "num_tokens": 651668.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.075692802667618e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.479,
+    "step": 958
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005653072148561478,
+    "learning_rate": 5.234999999999999e-07,
+    "num_tokens": 652034.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.505071461200714e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4795,
+    "step": 959
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004983440041542053,
+    "learning_rate": 5.23e-07,
+    "num_tokens": 652930.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 8.590333163738251e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.48,
+    "step": 960
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006832435610704124,
+    "learning_rate": 5.225e-07,
+    "num_tokens": 653826.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.18955460190773e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4805,
+    "step": 961
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007571274181827903,
+    "learning_rate": 5.22e-07,
+    "num_tokens": 654192.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.937018871307373e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.481,
+    "step": 962
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010364153422415257,
+    "learning_rate": 5.214999999999999e-07,
+    "num_tokens": 654558.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.4516135454177856e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4815,
+    "step": 963
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011270501418039203,
+    "learning_rate": 5.21e-07,
+    "num_tokens": 654924.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.379132926464081e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.482,
+    "step": 964
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1790162324905396,
+    "learning_rate": 5.204999999999999e-07,
+    "num_tokens": 655820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 4.971399903297424e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4825,
+    "step": 965
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014127911999821663,
+    "learning_rate": 5.2e-07,
+    "num_tokens": 656716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7829999923706055,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7829999923706055,
+    "reward_std": 0.0,
+    "kl": 5.042552947998047e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.483,
+    "step": 966
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7780529856681824,
+    "learning_rate": 5.195e-07,
+    "num_tokens": 657612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.06434673070907593,
+    "kl": 6.663426756858826e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4835,
+    "step": 967
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001735977828502655,
+    "learning_rate": 5.19e-07,
+    "num_tokens": 657978.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.362143903970718e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.484,
+    "step": 968
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010887464741244912,
+    "learning_rate": 5.184999999999999e-07,
+    "num_tokens": 658344.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.819167613983154e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4845,
+    "step": 969
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8512638807296753,
+    "learning_rate": 5.18e-07,
+    "num_tokens": 659240.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8050000071525574,
+    "rewards/environment_reward_verifier/std": 0.01272792648524046,
+    "reward": 0.8050000071525574,
+    "reward_std": 0.01272792648524046,
+    "kl": 3.4036580473184586e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.485,
+    "step": 970
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001590660191141069,
+    "learning_rate": 5.174999999999999e-07,
+    "num_tokens": 659606.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.096236079931259e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4855,
+    "step": 971
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003125761868432164,
+    "learning_rate": 5.17e-07,
+    "num_tokens": 659972.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.1511841118335724e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.486,
+    "step": 972
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008358623599633574,
+    "learning_rate": 5.164999999999999e-07,
+    "num_tokens": 660868.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 4.815123975276947e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4865,
+    "step": 973
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006493424880318344,
+    "learning_rate": 5.16e-07,
+    "num_tokens": 661764.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.00602987408638e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.487,
+    "step": 974
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005122573347762227,
+    "learning_rate": 5.155e-07,
+    "num_tokens": 662660.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8230000138282776,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8230000138282776,
+    "reward_std": 0.0,
+    "kl": 2.6183202862739563e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4875,
+    "step": 975
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013554071774706244,
+    "learning_rate": 5.149999999999999e-07,
+    "num_tokens": 663556.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 3.3993273973464966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.488,
+    "step": 976
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001144697074778378,
+    "learning_rate": 5.144999999999999e-07,
+    "num_tokens": 663922.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.336463123559952e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4885,
+    "step": 977
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025168475694954395,
+    "learning_rate": 5.14e-07,
+    "num_tokens": 664818.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 6.39837235212326e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.489,
+    "step": 978
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009632411529310048,
+    "learning_rate": 5.134999999999999e-07,
+    "num_tokens": 665184.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.3915042877197266e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4895,
+    "step": 979
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008115009986795485,
+    "learning_rate": 5.13e-07,
+    "num_tokens": 665550.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.3784505426883698e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.49,
+    "step": 980
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017039045924320817,
+    "learning_rate": 5.125e-07,
+    "num_tokens": 665916.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.642868250608444e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4905,
+    "step": 981
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.711256742477417,
+    "learning_rate": 5.12e-07,
+    "num_tokens": 666812.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 4.299357533454895e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.491,
+    "step": 982
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006743049598298967,
+    "learning_rate": 5.114999999999999e-07,
+    "num_tokens": 667178.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3412518203258514e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4915,
+    "step": 983
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012645031092688441,
+    "learning_rate": 5.11e-07,
+    "num_tokens": 667544.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.6438148021698e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.492,
+    "step": 984
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.116913080215454,
+    "learning_rate": 5.104999999999999e-07,
+    "num_tokens": 668440.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7999999523162842,
+    "rewards/environment_reward_verifier/std": 0.04949747025966644,
+    "reward": 0.7999999523162842,
+    "reward_std": 0.04949747025966644,
+    "kl": 6.992463022470474e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4925,
+    "step": 985
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014276455622166395,
+    "learning_rate": 5.1e-07,
+    "num_tokens": 668806.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.637947469949722e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.493,
+    "step": 986
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000873086741194129,
+    "learning_rate": 5.095e-07,
+    "num_tokens": 669172.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.7686899304389954e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4935,
+    "step": 987
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.574111819267273,
+    "learning_rate": 5.09e-07,
+    "num_tokens": 670068.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 3.855861723423004e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.494,
+    "step": 988
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6999775171279907,
+    "learning_rate": 5.085e-07,
+    "num_tokens": 670964.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 2.8043054044246674e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4945,
+    "step": 989
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009233710006810725,
+    "learning_rate": 5.079999999999999e-07,
+    "num_tokens": 671330.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.8283877074718475e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.495,
+    "step": 990
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.24552400410175323,
+    "learning_rate": 5.074999999999999e-07,
+    "num_tokens": 672226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.004242670256644487,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.004242670256644487,
+    "kl": 5.236826837062836e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4955,
+    "step": 991
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8669341802597046,
+    "learning_rate": 5.07e-07,
+    "num_tokens": 673122.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8264999985694885,
+    "rewards/environment_reward_verifier/std": 0.004949725698679686,
+    "reward": 0.8264999985694885,
+    "reward_std": 0.004949725698679686,
+    "kl": 5.610194057226181e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.496,
+    "step": 992
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009756143554113805,
+    "learning_rate": 5.064999999999999e-07,
+    "num_tokens": 673488.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.3435411751270294e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4965,
+    "step": 993
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002642970299348235,
+    "learning_rate": 5.06e-07,
+    "num_tokens": 673854.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.523100167512894e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.497,
+    "step": 994
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025872448459267616,
+    "learning_rate": 5.055e-07,
+    "num_tokens": 674220.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.0001097600907087326,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4975,
+    "step": 995
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7565536499023438,
+    "learning_rate": 5.049999999999999e-07,
+    "num_tokens": 675116.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.01555635966360569,
+    "kl": 3.309641033411026e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.498,
+    "step": 996
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005875544156879187,
+    "learning_rate": 5.044999999999999e-07,
+    "num_tokens": 675482.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.8343329429626465e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4985,
+    "step": 997
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006418801844120026,
+    "learning_rate": 5.04e-07,
+    "num_tokens": 675848.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.209205508232117e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.499,
+    "step": 998
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005877927760593593,
+    "learning_rate": 5.034999999999999e-07,
+    "num_tokens": 676744.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.0,
+    "kl": 2.3884698748588562e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4995,
+    "step": 999
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007023665821179748,
+    "learning_rate": 5.03e-07,
+    "num_tokens": 677640.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8560000061988831,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8560000061988831,
+    "reward_std": 0.0,
+    "kl": 3.754999488592148e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5,
+    "step": 1000
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8347640633583069,
+    "learning_rate": 5.025e-07,
+    "num_tokens": 678536.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8144999742507935,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8144999742507935,
+    "reward_std": 0.0035355305299162865,
+    "kl": 4.554633051156998e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5005,
+    "step": 1001
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0682181119918823,
+    "learning_rate": 5.02e-07,
+    "num_tokens": 679432.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8140000104904175,
+    "rewards/environment_reward_verifier/std": 0.002828432945534587,
+    "reward": 0.8140000104904175,
+    "reward_std": 0.002828432945534587,
+    "kl": 0.00010714586824178696,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.501,
+    "step": 1002
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7141183018684387,
+    "learning_rate": 5.014999999999999e-07,
+    "num_tokens": 680328.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.0689872801303864e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5015,
+    "step": 1003
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013398455921560526,
+    "learning_rate": 5.009999999999999e-07,
+    "num_tokens": 680694.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.019921809434891e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.502,
+    "step": 1004
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013964761747047305,
+    "learning_rate": 5.004999999999999e-07,
+    "num_tokens": 681060.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.270688027143478e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5025,
+    "step": 1005
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015274528414011002,
+    "learning_rate": 5e-07,
+    "num_tokens": 681426.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.6170706152915955e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.503,
+    "step": 1006
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006098856101743877,
+    "learning_rate": 4.994999999999999e-07,
+    "num_tokens": 681792.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.366025000810623e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5035,
+    "step": 1007
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028049976099282503,
+    "learning_rate": 4.99e-07,
+    "num_tokens": 682158.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.973301500082016e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.504,
+    "step": 1008
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001014014589600265,
+    "learning_rate": 4.985e-07,
+    "num_tokens": 682524.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.2168813049793243e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5045,
+    "step": 1009
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006871579680591822,
+    "learning_rate": 4.979999999999999e-07,
+    "num_tokens": 683420.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.037190228700638e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.505,
+    "step": 1010
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.6453120708465576,
+    "learning_rate": 4.975e-07,
+    "num_tokens": 684316.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8240000009536743,
+    "rewards/environment_reward_verifier/std": 0.015556317754089832,
+    "reward": 0.8240000009536743,
+    "reward_std": 0.015556317754089832,
+    "kl": 0.0003169504925608635,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5055,
+    "step": 1011
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7730938196182251,
+    "learning_rate": 4.97e-07,
+    "num_tokens": 685212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 4.6455301344394684e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.506,
+    "step": 1012
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013291386421769857,
+    "learning_rate": 4.964999999999999e-07,
+    "num_tokens": 686108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 6.316695362329483e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5065,
+    "step": 1013
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015565111534669995,
+    "learning_rate": 4.96e-07,
+    "num_tokens": 686474.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.946533590555191e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.507,
+    "step": 1014
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8053126335144043,
+    "learning_rate": 4.955e-07,
+    "num_tokens": 687370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 4.605855792760849e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5075,
+    "step": 1015
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013168035075068474,
+    "learning_rate": 4.95e-07,
+    "num_tokens": 687736.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.0020404160022736e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.508,
+    "step": 1016
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6808350086212158,
+    "learning_rate": 4.945e-07,
+    "num_tokens": 688632.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8105000257492065,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8105000257492065,
+    "reward_std": 0.06434673070907593,
+    "kl": 1.3706274330615997e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5085,
+    "step": 1017
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008983907173387706,
+    "learning_rate": 4.94e-07,
+    "num_tokens": 688998.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.1688640117645264e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.509,
+    "step": 1018
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004645304870791733,
+    "learning_rate": 4.935e-07,
+    "num_tokens": 689364.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.466553658246994e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5095,
+    "step": 1019
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6623954176902771,
+    "learning_rate": 4.93e-07,
+    "num_tokens": 690260.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7879999876022339,
+    "rewards/environment_reward_verifier/std": 0.05091170594096184,
+    "reward": 0.7879999876022339,
+    "reward_std": 0.05091170594096184,
+    "kl": 5.1676295697689056e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.51,
+    "step": 1020
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0022292693611234426,
+    "learning_rate": 4.924999999999999e-07,
+    "num_tokens": 691156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.382765084505081e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5105,
+    "step": 1021
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006294287159107625,
+    "learning_rate": 4.92e-07,
+    "num_tokens": 692052.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 1.8159858882427216e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.511,
+    "step": 1022
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001646587741561234,
+    "learning_rate": 4.915e-07,
+    "num_tokens": 692948.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3790000081062317,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3790000081062317,
+    "reward_std": 0.0,
+    "kl": 6.076321005821228e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5115,
+    "step": 1023
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003970656078308821,
+    "learning_rate": 4.909999999999999e-07,
+    "num_tokens": 693314.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.349051207304001e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.512,
+    "step": 1024
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.3712973594665527,
+    "learning_rate": 4.905e-07,
+    "num_tokens": 694210.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.012020829133689404,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.012020829133689404,
+    "kl": 5.5252574384212494e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5125,
+    "step": 1025
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7226940989494324,
+    "learning_rate": 4.9e-07,
+    "num_tokens": 695106.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.037136048078537e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.513,
+    "step": 1026
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7758554816246033,
+    "learning_rate": 4.894999999999999e-07,
+    "num_tokens": 696002.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.376362681388855e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5135,
+    "step": 1027
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011743708746507764,
+    "learning_rate": 4.89e-07,
+    "num_tokens": 696368.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.008280277252197e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.514,
+    "step": 1028
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008045915747061372,
+    "learning_rate": 4.885e-07,
+    "num_tokens": 696734.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.055428922176361e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5145,
+    "step": 1029
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016251134220510721,
+    "learning_rate": 4.879999999999999e-07,
+    "num_tokens": 697100.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.6836212277412415e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.515,
+    "step": 1030
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009004175080917776,
+    "learning_rate": 4.875e-07,
+    "num_tokens": 697466.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.1818635761737823e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5155,
+    "step": 1031
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000870404823217541,
+    "learning_rate": 4.87e-07,
+    "num_tokens": 697832.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.290137439966202e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.516,
+    "step": 1032
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008007647120393813,
+    "learning_rate": 4.864999999999999e-07,
+    "num_tokens": 698198.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.1054561734199524e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5165,
+    "step": 1033
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012625895906239748,
+    "learning_rate": 4.86e-07,
+    "num_tokens": 699094.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 5.473196506500244e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.517,
+    "step": 1034
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8870932459831238,
+    "learning_rate": 4.854999999999999e-07,
+    "num_tokens": 699990.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 4.998687654733658e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5175,
+    "step": 1035
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 5.1996870040893555,
+    "learning_rate": 4.85e-07,
+    "num_tokens": 700886.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8109999895095825,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8109999895095825,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0008062655106186867,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.518,
+    "step": 1036
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9224255084991455,
+    "learning_rate": 4.845e-07,
+    "num_tokens": 701782.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.08909548819065094,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.08909548819065094,
+    "kl": 8.533895015716553e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5185,
+    "step": 1037
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9159997701644897,
+    "learning_rate": 4.839999999999999e-07,
+    "num_tokens": 702678.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 0.00010907184332609177,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.519,
+    "step": 1038
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9420398473739624,
+    "learning_rate": 4.835e-07,
+    "num_tokens": 703574.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.331620246171951e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5195,
+    "step": 1039
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006412892253138125,
+    "learning_rate": 4.83e-07,
+    "num_tokens": 703940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.81589275598526e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.52,
+    "step": 1040
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011514879297465086,
+    "learning_rate": 4.824999999999999e-07,
+    "num_tokens": 704836.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.644785076379776e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5205,
+    "step": 1041
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7989395260810852,
+    "learning_rate": 4.82e-07,
+    "num_tokens": 705732.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8374999761581421,
+    "rewards/environment_reward_verifier/std": 0.026162952184677124,
+    "reward": 0.8374999761581421,
+    "reward_std": 0.026162952184677124,
+    "kl": 4.004035145044327e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.521,
+    "step": 1042
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7823817133903503,
+    "learning_rate": 4.815e-07,
+    "num_tokens": 706628.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 5.509518086910248e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5215,
+    "step": 1043
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010213347850367427,
+    "learning_rate": 4.809999999999999e-07,
+    "num_tokens": 706994.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.8906000554561615e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.522,
+    "step": 1044
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000587350397836417,
+    "learning_rate": 4.805e-07,
+    "num_tokens": 707890.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.326536923646927e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5225,
+    "step": 1045
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.244295358657837,
+    "learning_rate": 4.8e-07,
+    "num_tokens": 708786.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 8.475873619318008e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.523,
+    "step": 1046
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.5794961452484131,
+    "learning_rate": 4.794999999999999e-07,
+    "num_tokens": 709682.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 1.4612451195716858e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5235,
+    "step": 1047
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013103070668876171,
+    "learning_rate": 4.79e-07,
+    "num_tokens": 710578.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.042925477027893e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.524,
+    "step": 1048
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006897756247781217,
+    "learning_rate": 4.785e-07,
+    "num_tokens": 711474.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.652740269899368e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5245,
+    "step": 1049
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001127156661823392,
+    "learning_rate": 4.779999999999999e-07,
+    "num_tokens": 712370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8360000252723694,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8360000252723694,
+    "reward_std": 0.0,
+    "kl": 4.3822452425956726e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.525,
+    "step": 1050
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9209012985229492,
+    "learning_rate": 4.775e-07,
+    "num_tokens": 713266.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 8.319783955812454e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5255,
+    "step": 1051
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004929061979055405,
+    "learning_rate": 4.769999999999999e-07,
+    "num_tokens": 713632.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.4474615454673767e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.526,
+    "step": 1052
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008575913379900157,
+    "learning_rate": 4.7649999999999996e-07,
+    "num_tokens": 714528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 4.644319415092468e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5265,
+    "step": 1053
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010711499489843845,
+    "learning_rate": 4.76e-07,
+    "num_tokens": 714894.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.60710546374321e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.527,
+    "step": 1054
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.4542863368988037,
+    "learning_rate": 4.7549999999999994e-07,
+    "num_tokens": 715790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8244999647140503,
+    "rewards/environment_reward_verifier/std": 0.010606633499264717,
+    "reward": 0.8244999647140503,
+    "reward_std": 0.010606633499264717,
+    "kl": 4.874635487794876e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5275,
+    "step": 1055
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011175618274137378,
+    "learning_rate": 4.7499999999999995e-07,
+    "num_tokens": 716156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.2504630982875824e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.528,
+    "step": 1056
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014327390817925334,
+    "learning_rate": 4.7449999999999997e-07,
+    "num_tokens": 717052.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.353878855705261e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5285,
+    "step": 1057
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010367042850703,
+    "learning_rate": 4.7399999999999993e-07,
+    "num_tokens": 717948.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.3087249398231506e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.529,
+    "step": 1058
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014642463065683842,
+    "learning_rate": 4.7349999999999995e-07,
+    "num_tokens": 718314.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.121126115322113e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5295,
+    "step": 1059
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001211618771776557,
+    "learning_rate": 4.7299999999999996e-07,
+    "num_tokens": 718680.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.409929245710373e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.53,
+    "step": 1060
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.43314775824546814,
+    "learning_rate": 4.725e-07,
+    "num_tokens": 719576.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.388283610343933e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5305,
+    "step": 1061
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021799022797495127,
+    "learning_rate": 4.7199999999999994e-07,
+    "num_tokens": 719942.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.931647658348083e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.531,
+    "step": 1062
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9506287574768066,
+    "learning_rate": 4.7149999999999995e-07,
+    "num_tokens": 720838.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 6.758980453014374e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5315,
+    "step": 1063
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009273124160245061,
+    "learning_rate": 4.7099999999999997e-07,
+    "num_tokens": 721204.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.505537122488022e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.532,
+    "step": 1064
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.854387640953064,
+    "learning_rate": 4.7049999999999993e-07,
+    "num_tokens": 722100.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 5.616340786218643e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5325,
+    "step": 1065
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008773694280534983,
+    "learning_rate": 4.6999999999999995e-07,
+    "num_tokens": 722466.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8112903237342834e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.533,
+    "step": 1066
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003864539787173271,
+    "learning_rate": 4.6949999999999996e-07,
+    "num_tokens": 722832.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.4163858294487e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5335,
+    "step": 1067
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008390177972614765,
+    "learning_rate": 4.689999999999999e-07,
+    "num_tokens": 723198.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.3550895750522614e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.534,
+    "step": 1068
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5819850564002991,
+    "learning_rate": 4.685e-07,
+    "num_tokens": 724094.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8215000033378601,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8215000033378601,
+    "reward_std": 0.030405579134821892,
+    "kl": 4.4189393520355225e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5345,
+    "step": 1069
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7151784896850586,
+    "learning_rate": 4.68e-07,
+    "num_tokens": 724990.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 4.878733307123184e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.535,
+    "step": 1070
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7200919985771179,
+    "learning_rate": 4.675e-07,
+    "num_tokens": 725886.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.03111271932721138,
+    "reward": 0.828000009059906,
+    "reward_std": 0.03111271932721138,
+    "kl": 2.308003604412079e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5355,
+    "step": 1071
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007754597463645041,
+    "learning_rate": 4.67e-07,
+    "num_tokens": 726782.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.343393862247467e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.536,
+    "step": 1072
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.467349886894226,
+    "learning_rate": 4.665e-07,
+    "num_tokens": 727678.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 5.130656063556671e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5365,
+    "step": 1073
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014985098969191313,
+    "learning_rate": 4.66e-07,
+    "num_tokens": 728574.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8230000138282776,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8230000138282776,
+    "reward_std": 0.0,
+    "kl": 6.37909397482872e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.537,
+    "step": 1074
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006575265433639288,
+    "learning_rate": 4.655e-07,
+    "num_tokens": 728940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5262124836444855e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5375,
+    "step": 1075
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013476404128596187,
+    "learning_rate": 4.65e-07,
+    "num_tokens": 729836.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8360000252723694,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8360000252723694,
+    "reward_std": 0.0,
+    "kl": 6.878655403852463e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.538,
+    "step": 1076
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8713648915290833,
+    "learning_rate": 4.645e-07,
+    "num_tokens": 730732.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8285000324249268,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8285000324249268,
+    "reward_std": 0.030405621975660324,
+    "kl": 5.4436735808849335e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5385,
+    "step": 1077
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.896131694316864,
+    "learning_rate": 4.64e-07,
+    "num_tokens": 731628.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8365000486373901,
+    "rewards/environment_reward_verifier/std": 0.01909189112484455,
+    "reward": 0.8365000486373901,
+    "reward_std": 0.01909189112484455,
+    "kl": 7.974077016115189e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.539,
+    "step": 1078
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010619338136166334,
+    "learning_rate": 4.635e-07,
+    "num_tokens": 731994.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.778841346502304e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5395,
+    "step": 1079
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0038044482935220003,
+    "learning_rate": 4.63e-07,
+    "num_tokens": 732890.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 6.113387644290924e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.54,
+    "step": 1080
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006946232169866562,
+    "learning_rate": 4.625e-07,
+    "num_tokens": 733256.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9797665774822235e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5405,
+    "step": 1081
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010349710937589407,
+    "learning_rate": 4.62e-07,
+    "num_tokens": 733622.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.0976330637931824e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.541,
+    "step": 1082
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.8080283999443054,
+    "learning_rate": 4.615e-07,
+    "num_tokens": 734518.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 3.455299884080887e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5415,
+    "step": 1083
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6965125799179077,
+    "learning_rate": 4.61e-07,
+    "num_tokens": 735414.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 1.866370439529419e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.542,
+    "step": 1084
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6720305681228638,
+    "learning_rate": 4.605e-07,
+    "num_tokens": 736310.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6024999618530273,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6024999618530273,
+    "reward_std": 0.32031938433647156,
+    "kl": 4.154164344072342e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5425,
+    "step": 1085
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013083838857710361,
+    "learning_rate": 4.6e-07,
+    "num_tokens": 736676.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.0749629735946655e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.543,
+    "step": 1086
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.009301274083554745,
+    "learning_rate": 4.595e-07,
+    "num_tokens": 737042.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 8.457805961370468e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5435,
+    "step": 1087
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004053961019963026,
+    "learning_rate": 4.59e-07,
+    "num_tokens": 737408.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.5139579772949219e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.544,
+    "step": 1088
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011373644229024649,
+    "learning_rate": 4.585e-07,
+    "num_tokens": 737774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.684296876192093e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5445,
+    "step": 1089
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016718122642487288,
+    "learning_rate": 4.58e-07,
+    "num_tokens": 738140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.372838884592056e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.545,
+    "step": 1090
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015452688094228506,
+    "learning_rate": 4.575e-07,
+    "num_tokens": 738506.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 7.757917046546936e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5455,
+    "step": 1091
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012514872942119837,
+    "learning_rate": 4.57e-07,
+    "num_tokens": 738872.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.210827708244324e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.546,
+    "step": 1092
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005028535611927509,
+    "learning_rate": 4.565e-07,
+    "num_tokens": 739768.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 8.534826338291168e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5465,
+    "step": 1093
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8036929368972778,
+    "learning_rate": 4.56e-07,
+    "num_tokens": 740664.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6130000352859497,
+    "rewards/environment_reward_verifier/std": 0.33516865968704224,
+    "reward": 0.6130000352859497,
+    "reward_std": 0.33516862988471985,
+    "kl": 2.9150396585464478e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.547,
+    "step": 1094
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015902062878012657,
+    "learning_rate": 4.5549999999999997e-07,
+    "num_tokens": 741030.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.9276819229125977e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5475,
+    "step": 1095
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006445720326155424,
+    "learning_rate": 4.55e-07,
+    "num_tokens": 741926.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 0.00020186323672533035,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.548,
+    "step": 1096
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0024542820174247026,
+    "learning_rate": 4.545e-07,
+    "num_tokens": 742292.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 7.358752191066742e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5485,
+    "step": 1097
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7798157930374146,
+    "learning_rate": 4.54e-07,
+    "num_tokens": 743188.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.195274621248245e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.549,
+    "step": 1098
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002626468427479267,
+    "learning_rate": 4.535e-07,
+    "num_tokens": 743554.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.415508687496185e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5495,
+    "step": 1099
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010975905461236835,
+    "learning_rate": 4.53e-07,
+    "num_tokens": 744450.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 4.399195313453674e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.55,
+    "step": 1100
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014132909709587693,
+    "learning_rate": 4.525e-07,
+    "num_tokens": 744816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.489106893539429e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5505,
+    "step": 1101
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008872256148606539,
+    "learning_rate": 4.5199999999999997e-07,
+    "num_tokens": 745182.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7196481823921204e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.551,
+    "step": 1102
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009551795083098114,
+    "learning_rate": 4.515e-07,
+    "num_tokens": 745548.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.835450530052185e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5515,
+    "step": 1103
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009749606251716614,
+    "learning_rate": 4.51e-07,
+    "num_tokens": 745914.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.7489069402217865e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.552,
+    "step": 1104
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.701126217842102,
+    "learning_rate": 4.505e-07,
+    "num_tokens": 746810.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 3.5354867577552795e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5525,
+    "step": 1105
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016017908928915858,
+    "learning_rate": 4.5e-07,
+    "num_tokens": 747176.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.077982157468796e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.553,
+    "step": 1106
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.02981463633477688,
+    "learning_rate": 4.495e-07,
+    "num_tokens": 748072.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 0.0003043217584490776,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5535,
+    "step": 1107
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7885046005249023,
+    "learning_rate": 4.49e-07,
+    "num_tokens": 748968.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 4.943087697029114e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.554,
+    "step": 1108
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013270628405734897,
+    "learning_rate": 4.4849999999999997e-07,
+    "num_tokens": 749864.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 3.764824941754341e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5545,
+    "step": 1109
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002615105826407671,
+    "learning_rate": 4.48e-07,
+    "num_tokens": 750760.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 5.5215321481227875e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.555,
+    "step": 1110
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004951399751007557,
+    "learning_rate": 4.475e-07,
+    "num_tokens": 751656.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8349999785423279,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8349999785423279,
+    "reward_std": 0.0,
+    "kl": 8.068140596151352e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5555,
+    "step": 1111
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012534718262031674,
+    "learning_rate": 4.4699999999999997e-07,
+    "num_tokens": 752552.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.725903272628784e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.556,
+    "step": 1112
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.019243597984314,
+    "learning_rate": 4.465e-07,
+    "num_tokens": 753448.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 2.8742477297782898e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5565,
+    "step": 1113
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007149396697059274,
+    "learning_rate": 4.46e-07,
+    "num_tokens": 754344.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 3.425125032663345e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.557,
+    "step": 1114
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7942933440208435,
+    "learning_rate": 4.455e-07,
+    "num_tokens": 755240.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.513360232114792e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5575,
+    "step": 1115
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008115972159430385,
+    "learning_rate": 4.45e-07,
+    "num_tokens": 755606.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9197894036769867e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.558,
+    "step": 1116
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004850304394494742,
+    "learning_rate": 4.445e-07,
+    "num_tokens": 756502.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 2.2466294467449188e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5585,
+    "step": 1117
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0030674112495034933,
+    "learning_rate": 4.44e-07,
+    "num_tokens": 757398.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 7.501151412725449e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.559,
+    "step": 1118
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 7.088427543640137,
+    "learning_rate": 4.4349999999999997e-07,
+    "num_tokens": 758294.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.0011300211772322655,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5595,
+    "step": 1119
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4334491193294525,
+    "learning_rate": 4.43e-07,
+    "num_tokens": 759190.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 7.447786629199982e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.56,
+    "step": 1120
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007208894239738584,
+    "learning_rate": 4.425e-07,
+    "num_tokens": 760086.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8799999952316284,
+    "reward_std": 0.0,
+    "kl": 3.8051046431064606e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5605,
+    "step": 1121
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007795984856784344,
+    "learning_rate": 4.4199999999999996e-07,
+    "num_tokens": 760982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.468656748533249e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.561,
+    "step": 1122
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012512864777818322,
+    "learning_rate": 4.415e-07,
+    "num_tokens": 761878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 4.391837865114212e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5615,
+    "step": 1123
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009035151451826096,
+    "learning_rate": 4.41e-07,
+    "num_tokens": 762244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.166031092405319e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.562,
+    "step": 1124
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005260740406811237,
+    "learning_rate": 4.405e-07,
+    "num_tokens": 762610.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.784312427043915e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5625,
+    "step": 1125
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005609462503343821,
+    "learning_rate": 4.3999999999999997e-07,
+    "num_tokens": 762976.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00010124035179615021,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.563,
+    "step": 1126
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2771704196929932,
+    "learning_rate": 4.395e-07,
+    "num_tokens": 763872.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8355000019073486,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8355000019073486,
+    "reward_std": 0.030405579134821892,
+    "kl": 4.788767546415329e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5635,
+    "step": 1127
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021501986775547266,
+    "learning_rate": 4.39e-07,
+    "num_tokens": 764768.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.868744432926178e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.564,
+    "step": 1128
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.02380327321588993,
+    "learning_rate": 4.3849999999999996e-07,
+    "num_tokens": 765664.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 0.00020685698837041855,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5645,
+    "step": 1129
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008271721890196204,
+    "learning_rate": 4.38e-07,
+    "num_tokens": 766560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.460142761468887e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.565,
+    "step": 1130
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002502850955352187,
+    "learning_rate": 4.375e-07,
+    "num_tokens": 767456.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 8.812826126813889e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5655,
+    "step": 1131
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8675118684768677,
+    "learning_rate": 4.3699999999999996e-07,
+    "num_tokens": 768352.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 2.4055130779743195e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.566,
+    "step": 1132
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005724570946767926,
+    "learning_rate": 4.3649999999999997e-07,
+    "num_tokens": 768718.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.5970861315727234e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5665,
+    "step": 1133
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9044247269630432,
+    "learning_rate": 4.36e-07,
+    "num_tokens": 769614.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 4.267459735274315e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.567,
+    "step": 1134
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008706374792382121,
+    "learning_rate": 4.355e-07,
+    "num_tokens": 769980.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.38628888130188e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5675,
+    "step": 1135
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008669144008308649,
+    "learning_rate": 4.3499999999999996e-07,
+    "num_tokens": 770346.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9822811484336853e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.568,
+    "step": 1136
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008733807480894029,
+    "learning_rate": 4.345e-07,
+    "num_tokens": 771242.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 3.1771138310432434e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5685,
+    "step": 1137
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6992013454437256,
+    "learning_rate": 4.34e-07,
+    "num_tokens": 772138.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.146566450595856e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.569,
+    "step": 1138
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.721673309803009,
+    "learning_rate": 4.3349999999999996e-07,
+    "num_tokens": 773034.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.3486634492874146e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5695,
+    "step": 1139
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015109943924471736,
+    "learning_rate": 4.3299999999999997e-07,
+    "num_tokens": 773400.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.1791779696941376e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.57,
+    "step": 1140
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006302982219494879,
+    "learning_rate": 4.325e-07,
+    "num_tokens": 773766.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.970709025859833e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5705,
+    "step": 1141
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8986210823059082,
+    "learning_rate": 4.3199999999999995e-07,
+    "num_tokens": 774662.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 2.2946856915950775e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.571,
+    "step": 1142
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9135581851005554,
+    "learning_rate": 4.3149999999999997e-07,
+    "num_tokens": 775558.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8339999914169312,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8339999914169312,
+    "reward_std": 0.0014141954015940428,
+    "kl": 4.8568472266197205e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5715,
+    "step": 1143
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007872915011830628,
+    "learning_rate": 4.31e-07,
+    "num_tokens": 776454.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.8450042009353638e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.572,
+    "step": 1144
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014165544416755438,
+    "learning_rate": 4.305e-07,
+    "num_tokens": 776820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.639888018369675e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5725,
+    "step": 1145
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1294194459915161,
+    "learning_rate": 4.2999999999999996e-07,
+    "num_tokens": 777716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5985000133514404,
+    "rewards/environment_reward_verifier/std": 0.30900564789772034,
+    "reward": 0.5985000133514404,
+    "reward_std": 0.30900564789772034,
+    "kl": 3.513321280479431e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.573,
+    "step": 1146
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.3191306591033936,
+    "learning_rate": 4.295e-07,
+    "num_tokens": 778612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 6.908457726240158e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5735,
+    "step": 1147
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009586151572875679,
+    "learning_rate": 4.29e-07,
+    "num_tokens": 778978.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.177447408437729e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.574,
+    "step": 1148
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005024131387472153,
+    "learning_rate": 4.2849999999999995e-07,
+    "num_tokens": 779344.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.4783814549446106e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5745,
+    "step": 1149
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006900393636897206,
+    "learning_rate": 4.2799999999999997e-07,
+    "num_tokens": 779710.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.0194798707962036e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.575,
+    "step": 1150
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008045569411478937,
+    "learning_rate": 4.275e-07,
+    "num_tokens": 780076.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.0642375349998474e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5755,
+    "step": 1151
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9339599609375,
+    "learning_rate": 4.2699999999999995e-07,
+    "num_tokens": 780972.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 4.819221794605255e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.576,
+    "step": 1152
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0030637807212769985,
+    "learning_rate": 4.2649999999999996e-07,
+    "num_tokens": 781338.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.25936484336853e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5765,
+    "step": 1153
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007876747404225171,
+    "learning_rate": 4.26e-07,
+    "num_tokens": 781704.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2448599338531494e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.577,
+    "step": 1154
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 4.5117621421813965,
+    "learning_rate": 4.255e-07,
+    "num_tokens": 782600.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.00021765939891338348,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5775,
+    "step": 1155
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7867717146873474,
+    "learning_rate": 4.2499999999999995e-07,
+    "num_tokens": 783496.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 4.140380769968033e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.578,
+    "step": 1156
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.147055983543396,
+    "learning_rate": 4.2449999999999997e-07,
+    "num_tokens": 784392.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 5.766935646533966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5785,
+    "step": 1157
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009962597396224737,
+    "learning_rate": 4.24e-07,
+    "num_tokens": 784758.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.4585120677948e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.579,
+    "step": 1158
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6066794395446777,
+    "learning_rate": 4.2349999999999995e-07,
+    "num_tokens": 785654.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.099946141242981e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5795,
+    "step": 1159
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011076327646151185,
+    "learning_rate": 4.2299999999999996e-07,
+    "num_tokens": 786550.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 3.2811425626277924e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.58,
+    "step": 1160
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014531526248902082,
+    "learning_rate": 4.225e-07,
+    "num_tokens": 786916.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.2596137821674347e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5805,
+    "step": 1161
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9099974036216736,
+    "learning_rate": 4.2199999999999994e-07,
+    "num_tokens": 787812.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 4.342012107372284e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.581,
+    "step": 1162
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007894930895417929,
+    "learning_rate": 4.2149999999999996e-07,
+    "num_tokens": 788178.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.397651016712189e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5815,
+    "step": 1163
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006528134108521044,
+    "learning_rate": 4.2099999999999997e-07,
+    "num_tokens": 788544.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8007663786411285e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.582,
+    "step": 1164
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013370973756536841,
+    "learning_rate": 4.205e-07,
+    "num_tokens": 789440.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 4.331488162279129e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5825,
+    "step": 1165
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.008622455410659313,
+    "learning_rate": 4.1999999999999995e-07,
+    "num_tokens": 789806.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 9.85804945230484e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.583,
+    "step": 1166
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003398398694116622,
+    "learning_rate": 4.1949999999999996e-07,
+    "num_tokens": 790702.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 1.4378689229488373e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5835,
+    "step": 1167
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0026922523975372314,
+    "learning_rate": 4.19e-07,
+    "num_tokens": 791598.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 5.420856177806854e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.584,
+    "step": 1168
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011085510486736894,
+    "learning_rate": 4.1849999999999994e-07,
+    "num_tokens": 791964.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.356672823429108e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5845,
+    "step": 1169
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014948807656764984,
+    "learning_rate": 4.1799999999999996e-07,
+    "num_tokens": 792860.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 3.747083246707916e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.585,
+    "step": 1170
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0024414442013949156,
+    "learning_rate": 4.1749999999999997e-07,
+    "num_tokens": 793226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.383230745792389e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5855,
+    "step": 1171
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008324653026647866,
+    "learning_rate": 4.17e-07,
+    "num_tokens": 793592.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.4080276489257812e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.586,
+    "step": 1172
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004513743333518505,
+    "learning_rate": 4.1649999999999995e-07,
+    "num_tokens": 793958.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.0094368159770966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5865,
+    "step": 1173
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1424351930618286,
+    "learning_rate": 4.1599999999999997e-07,
+    "num_tokens": 794854.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.045254841446876526,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.045254841446876526,
+    "kl": 4.7483015805482864e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.587,
+    "step": 1174
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007836687145754695,
+    "learning_rate": 4.155e-07,
+    "num_tokens": 795220.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.364775329828262e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5875,
+    "step": 1175
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010889176046475768,
+    "learning_rate": 4.1499999999999994e-07,
+    "num_tokens": 796116.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 7.194280624389648e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.588,
+    "step": 1176
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007088605780154467,
+    "learning_rate": 4.1449999999999996e-07,
+    "num_tokens": 796482.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.4199096262454987e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5885,
+    "step": 1177
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.070939540863037,
+    "learning_rate": 4.14e-07,
+    "num_tokens": 797378.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 0.0002916678786277771,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.589,
+    "step": 1178
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6214652061462402,
+    "learning_rate": 4.1349999999999994e-07,
+    "num_tokens": 798274.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 2.4322420358657837e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5895,
+    "step": 1179
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009458345011807978,
+    "learning_rate": 4.1299999999999995e-07,
+    "num_tokens": 799170.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.9888545870780945e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.59,
+    "step": 1180
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0023420630022883415,
+    "learning_rate": 4.1249999999999997e-07,
+    "num_tokens": 800066.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8169999718666077,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8169999718666077,
+    "reward_std": 0.0,
+    "kl": 5.9927813708782196e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5905,
+    "step": 1181
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000965822022408247,
+    "learning_rate": 4.12e-07,
+    "num_tokens": 800432.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.7750229239463806e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.591,
+    "step": 1182
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.6063085794448853,
+    "learning_rate": 4.1149999999999995e-07,
+    "num_tokens": 801328.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5900000333786011,
+    "rewards/environment_reward_verifier/std": 0.29698485136032104,
+    "reward": 0.5900000333786011,
+    "reward_std": 0.29698485136032104,
+    "kl": 0.00027918070554733276,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5915,
+    "step": 1183
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005139731802046299,
+    "learning_rate": 4.1099999999999996e-07,
+    "num_tokens": 801694.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3162923753261566e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.592,
+    "step": 1184
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5656786561012268,
+    "learning_rate": 4.105e-07,
+    "num_tokens": 802590.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.2364390790462494e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5925,
+    "step": 1185
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014976236270740628,
+    "learning_rate": 4.0999999999999994e-07,
+    "num_tokens": 803486.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 6.177928298711777e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.593,
+    "step": 1186
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004364319611340761,
+    "learning_rate": 4.0949999999999995e-07,
+    "num_tokens": 804382.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.5425106287002563e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5935,
+    "step": 1187
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009826120221987367,
+    "learning_rate": 4.0899999999999997e-07,
+    "num_tokens": 805278.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.7304667532444e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.594,
+    "step": 1188
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.64700847864151,
+    "learning_rate": 4.0849999999999993e-07,
+    "num_tokens": 806174.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 5.3250230848789215e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5945,
+    "step": 1189
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0022661720868200064,
+    "learning_rate": 4.0799999999999995e-07,
+    "num_tokens": 806540.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.443595677614212e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.595,
+    "step": 1190
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000834315549582243,
+    "learning_rate": 4.0749999999999996e-07,
+    "num_tokens": 806906.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.1482428312301636e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5955,
+    "step": 1191
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6438500285148621,
+    "learning_rate": 4.07e-07,
+    "num_tokens": 807802.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.063065767288208e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.596,
+    "step": 1192
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1600512266159058,
+    "learning_rate": 4.0649999999999994e-07,
+    "num_tokens": 808698.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 7.457006722688675e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5965,
+    "step": 1193
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5434377789497375,
+    "learning_rate": 4.06e-07,
+    "num_tokens": 809594.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 0.00014703162014484406,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.597,
+    "step": 1194
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.4017819166183472,
+    "learning_rate": 4.055e-07,
+    "num_tokens": 810490.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.045254841446876526,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.045254841446876526,
+    "kl": 8.405186235904694e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5975,
+    "step": 1195
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012142626801505685,
+    "learning_rate": 4.05e-07,
+    "num_tokens": 811386.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.384985029697418e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.598,
+    "step": 1196
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.018900752067566,
+    "learning_rate": 4.045e-07,
+    "num_tokens": 812282.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 4.876777529716492e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5985,
+    "step": 1197
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005210700444877148,
+    "learning_rate": 4.04e-07,
+    "num_tokens": 813178.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 3.0909664928913116e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.599,
+    "step": 1198
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011610703077167273,
+    "learning_rate": 4.0350000000000003e-07,
+    "num_tokens": 814074.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 5.2697956562042236e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5995,
+    "step": 1199
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020010985899716616,
+    "learning_rate": 4.03e-07,
+    "num_tokens": 814440.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.6801211535930634e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6,
+    "step": 1200
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.154164433479309,
+    "learning_rate": 4.025e-07,
+    "num_tokens": 815336.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8194999694824219,
+    "rewards/environment_reward_verifier/std": 0.006363963708281517,
+    "reward": 0.8194999694824219,
+    "reward_std": 0.00636396324262023,
+    "kl": 5.737924948334694e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6005,
+    "step": 1201
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8344117999076843,
+    "learning_rate": 4.02e-07,
+    "num_tokens": 816232.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5659999847412109,
+    "rewards/environment_reward_verifier/std": 0.26304370164871216,
+    "reward": 0.5659999847412109,
+    "reward_std": 0.26304370164871216,
+    "kl": 4.787277430295944e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.601,
+    "step": 1202
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003480904968455434,
+    "learning_rate": 4.015e-07,
+    "num_tokens": 816598.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.830529749393463e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6015,
+    "step": 1203
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5837674736976624,
+    "learning_rate": 4.01e-07,
+    "num_tokens": 817494.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.146659582853317e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.602,
+    "step": 1204
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009633260779082775,
+    "learning_rate": 4.005e-07,
+    "num_tokens": 817860.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.5591813027858734e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6025,
+    "step": 1205
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009856430115178227,
+    "learning_rate": 4e-07,
+    "num_tokens": 818226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.5589950382709503e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.603,
+    "step": 1206
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9632642865180969,
+    "learning_rate": 3.995e-07,
+    "num_tokens": 819122.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5895000100135803,
+    "rewards/environment_reward_verifier/std": 0.2976919412612915,
+    "reward": 0.5895000100135803,
+    "reward_std": 0.2976919412612915,
+    "kl": 7.927417755126953e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6035,
+    "step": 1207
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7225797772407532,
+    "learning_rate": 3.99e-07,
+    "num_tokens": 820018.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8004999756813049,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.8004999756813049,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.618467599153519e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.604,
+    "step": 1208
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005820510559715331,
+    "learning_rate": 3.9850000000000003e-07,
+    "num_tokens": 820384.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.506747841835022e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6045,
+    "step": 1209
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.11246080696582794,
+    "learning_rate": 3.98e-07,
+    "num_tokens": 821280.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 0.0006216149777173996,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.605,
+    "step": 1210
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008536215755157173,
+    "learning_rate": 3.975e-07,
+    "num_tokens": 822176.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.647804260253906e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6055,
+    "step": 1211
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8368681073188782,
+    "learning_rate": 3.97e-07,
+    "num_tokens": 823072.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.01555635966360569,
+    "kl": 6.206240504980087e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.606,
+    "step": 1212
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013144423719495535,
+    "learning_rate": 3.965e-07,
+    "num_tokens": 823438.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.236958920955658e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6065,
+    "step": 1213
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006823380826972425,
+    "learning_rate": 3.96e-07,
+    "num_tokens": 823804.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.3760832846164703e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.607,
+    "step": 1214
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1030247211456299,
+    "learning_rate": 3.955e-07,
+    "num_tokens": 824700.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 6.19012862443924e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6075,
+    "step": 1215
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.477575659751892,
+    "learning_rate": 3.95e-07,
+    "num_tokens": 825596.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8264999985694885,
+    "rewards/environment_reward_verifier/std": 0.004949725698679686,
+    "reward": 0.8264999985694885,
+    "reward_std": 0.004949725698679686,
+    "kl": 4.018470644950867e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.608,
+    "step": 1216
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.0342001914978027,
+    "learning_rate": 3.945e-07,
+    "num_tokens": 826492.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.846500039100647,
+    "rewards/environment_reward_verifier/std": 0.014849219471216202,
+    "reward": 0.846500039100647,
+    "reward_std": 0.014849220402538776,
+    "kl": 0.0002557104453444481,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6085,
+    "step": 1217
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.7365775108337402,
+    "learning_rate": 3.94e-07,
+    "num_tokens": 827388.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 0.0005983030423521996,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.609,
+    "step": 1218
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015003138687461615,
+    "learning_rate": 3.935e-07,
+    "num_tokens": 828284.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 3.05837020277977e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6095,
+    "step": 1219
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006942595937289298,
+    "learning_rate": 3.93e-07,
+    "num_tokens": 828650.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.819392830133438e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.61,
+    "step": 1220
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2102298736572266,
+    "learning_rate": 3.925e-07,
+    "num_tokens": 829546.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 8.058547973632812e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6105,
+    "step": 1221
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002410503104329109,
+    "learning_rate": 3.92e-07,
+    "num_tokens": 829912.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7735717594623566e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.611,
+    "step": 1222
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5362751483917236,
+    "learning_rate": 3.915e-07,
+    "num_tokens": 830808.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5895000100135803,
+    "rewards/environment_reward_verifier/std": 0.2976919412612915,
+    "reward": 0.5895000100135803,
+    "reward_std": 0.2976919412612915,
+    "kl": 4.956033080816269e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6115,
+    "step": 1223
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.942923903465271,
+    "learning_rate": 3.91e-07,
+    "num_tokens": 831704.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 8.915457874536514e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.612,
+    "step": 1224
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002524598268792033,
+    "learning_rate": 3.905e-07,
+    "num_tokens": 832070.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.547236651182175e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6125,
+    "step": 1225
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7344366908073425,
+    "learning_rate": 3.8999999999999997e-07,
+    "num_tokens": 832966.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 2.895202487707138e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.613,
+    "step": 1226
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006395566160790622,
+    "learning_rate": 3.895e-07,
+    "num_tokens": 833332.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4780631065368652e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6135,
+    "step": 1227
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005058986134827137,
+    "learning_rate": 3.89e-07,
+    "num_tokens": 834228.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 6.9446861743927e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.614,
+    "step": 1228
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012920841109007597,
+    "learning_rate": 3.885e-07,
+    "num_tokens": 834594.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.587322473526001e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6145,
+    "step": 1229
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007255738019011915,
+    "learning_rate": 3.88e-07,
+    "num_tokens": 834960.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.073643893003464e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.615,
+    "step": 1230
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010118153877556324,
+    "learning_rate": 3.875e-07,
+    "num_tokens": 835856.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 5.720555782318115e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6155,
+    "step": 1231
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9696030616760254,
+    "learning_rate": 3.87e-07,
+    "num_tokens": 836752.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 5.519948899745941e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.616,
+    "step": 1232
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008281389600597322,
+    "learning_rate": 3.8649999999999997e-07,
+    "num_tokens": 837648.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.955978900194168e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6165,
+    "step": 1233
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000896997342351824,
+    "learning_rate": 3.86e-07,
+    "num_tokens": 838014.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.720579504966736e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.617,
+    "step": 1234
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8454764485359192,
+    "learning_rate": 3.855e-07,
+    "num_tokens": 838910.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6130000352859497,
+    "rewards/environment_reward_verifier/std": 0.33516865968704224,
+    "reward": 0.6130000352859497,
+    "reward_std": 0.33516862988471985,
+    "kl": 2.8034672141075134e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6175,
+    "step": 1235
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.5553829669952393,
+    "learning_rate": 3.8499999999999997e-07,
+    "num_tokens": 839806.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.0008981227874755859,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.618,
+    "step": 1236
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028249912429600954,
+    "learning_rate": 3.845e-07,
+    "num_tokens": 840172.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.781115472316742e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6185,
+    "step": 1237
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8872079849243164,
+    "learning_rate": 3.84e-07,
+    "num_tokens": 841068.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6104999780654907,
+    "rewards/environment_reward_verifier/std": 0.32173359394073486,
+    "reward": 0.6104999780654907,
+    "reward_std": 0.32173359394073486,
+    "kl": 3.669038414955139e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.619,
+    "step": 1238
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.1121773719787598,
+    "learning_rate": 3.835e-07,
+    "num_tokens": 841964.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7914999723434448,
+    "rewards/environment_reward_verifier/std": 0.012020829133689404,
+    "reward": 0.7914999723434448,
+    "reward_std": 0.012020829133689404,
+    "kl": 4.011392593383789e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6195,
+    "step": 1239
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8808300495147705,
+    "learning_rate": 3.83e-07,
+    "num_tokens": 842860.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 5.278363823890686e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.62,
+    "step": 1240
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008536277455277741,
+    "learning_rate": 3.825e-07,
+    "num_tokens": 843226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.142786979675293e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6205,
+    "step": 1241
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00196442031301558,
+    "learning_rate": 3.82e-07,
+    "num_tokens": 844122.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 6.778724491596222e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.621,
+    "step": 1242
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1811593770980835,
+    "learning_rate": 3.8149999999999997e-07,
+    "num_tokens": 845018.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 9.287428110837936e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6215,
+    "step": 1243
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.1052486896514893,
+    "learning_rate": 3.81e-07,
+    "num_tokens": 845914.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00012909993529319763,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.622,
+    "step": 1244
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007280511781573296,
+    "learning_rate": 3.805e-07,
+    "num_tokens": 846810.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 4.291161894798279e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6225,
+    "step": 1245
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009892369853332639,
+    "learning_rate": 3.7999999999999996e-07,
+    "num_tokens": 847706.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 4.4899992644786835e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.623,
+    "step": 1246
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2615931034088135,
+    "learning_rate": 3.795e-07,
+    "num_tokens": 848602.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 0.00013742130249738693,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6235,
+    "step": 1247
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9772652983665466,
+    "learning_rate": 3.79e-07,
+    "num_tokens": 849498.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 6.359443068504333e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.624,
+    "step": 1248
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010019529145210981,
+    "learning_rate": 3.785e-07,
+    "num_tokens": 850394.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 3.528129309415817e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6245,
+    "step": 1249
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001229120884090662,
+    "learning_rate": 3.7799999999999997e-07,
+    "num_tokens": 850760.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.002785474061966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.625,
+    "step": 1250
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002709547057747841,
+    "learning_rate": 3.775e-07,
+    "num_tokens": 851126.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.825034946203232e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6255,
+    "step": 1251
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007558225770480931,
+    "learning_rate": 3.77e-07,
+    "num_tokens": 852022.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.405194729566574e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.626,
+    "step": 1252
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007477627950720489,
+    "learning_rate": 3.7649999999999996e-07,
+    "num_tokens": 852388.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9467977583408356e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6265,
+    "step": 1253
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.641973614692688,
+    "learning_rate": 3.76e-07,
+    "num_tokens": 853284.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 2.405419945716858e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.627,
+    "step": 1254
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008768303669057786,
+    "learning_rate": 3.755e-07,
+    "num_tokens": 854180.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.962963819503784e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6275,
+    "step": 1255
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001349854632280767,
+    "learning_rate": 3.75e-07,
+    "num_tokens": 855076.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 3.5919249057769775e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.628,
+    "step": 1256
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.967917799949646,
+    "learning_rate": 3.7449999999999997e-07,
+    "num_tokens": 855972.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8314999938011169,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8314999938011169,
+    "reward_std": 0.016263457015156746,
+    "kl": 5.0412025302648544e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6285,
+    "step": 1257
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001075277803465724,
+    "learning_rate": 3.74e-07,
+    "num_tokens": 856338.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.575347363948822e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.629,
+    "step": 1258
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008712686831131577,
+    "learning_rate": 3.735e-07,
+    "num_tokens": 857234.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.816800355911255e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6295,
+    "step": 1259
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5931232571601868,
+    "learning_rate": 3.7299999999999997e-07,
+    "num_tokens": 858130.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 5.093403160572052e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.63,
+    "step": 1260
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002584398491308093,
+    "learning_rate": 3.725e-07,
+    "num_tokens": 859026.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 6.108544766902924e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6305,
+    "step": 1261
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6407532095909119,
+    "learning_rate": 3.72e-07,
+    "num_tokens": 859922.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.1507574021816254e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.631,
+    "step": 1262
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005580906290560961,
+    "learning_rate": 3.7149999999999996e-07,
+    "num_tokens": 860818.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.9365142583847046e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6315,
+    "step": 1263
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007866480154916644,
+    "learning_rate": 3.71e-07,
+    "num_tokens": 861714.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 2.9120594263076782e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.632,
+    "step": 1264
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00023025991686154157,
+    "learning_rate": 3.705e-07,
+    "num_tokens": 862080.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.134411811828613e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6325,
+    "step": 1265
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007495736936107278,
+    "learning_rate": 3.7e-07,
+    "num_tokens": 862446.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.528168261051178e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.633,
+    "step": 1266
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012470403453335166,
+    "learning_rate": 3.6949999999999997e-07,
+    "num_tokens": 862812.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.004035145044327e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6335,
+    "step": 1267
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00143651501275599,
+    "learning_rate": 3.69e-07,
+    "num_tokens": 863178.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.211735308170319e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.634,
+    "step": 1268
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.5546659231185913,
+    "learning_rate": 3.685e-07,
+    "num_tokens": 864074.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 2.325884997844696e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6345,
+    "step": 1269
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6545803546905518,
+    "learning_rate": 3.6799999999999996e-07,
+    "num_tokens": 864970.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5734999775886536,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5734999775886536,
+    "reward_std": 0.27082186937332153,
+    "kl": 3.8314610719680786e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.635,
+    "step": 1270
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000768592581152916,
+    "learning_rate": 3.675e-07,
+    "num_tokens": 865866.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 4.2659230530261993e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6355,
+    "step": 1271
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005816725082695484,
+    "learning_rate": 3.67e-07,
+    "num_tokens": 866232.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.577186286449432e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.636,
+    "step": 1272
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009579506004229188,
+    "learning_rate": 3.6649999999999995e-07,
+    "num_tokens": 867128.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 3.569386899471283e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6365,
+    "step": 1273
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000599819584749639,
+    "learning_rate": 3.6599999999999997e-07,
+    "num_tokens": 867494.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6275403797626495e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.637,
+    "step": 1274
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003153608413413167,
+    "learning_rate": 3.655e-07,
+    "num_tokens": 867860.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.91218301653862e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6375,
+    "step": 1275
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011011279420927167,
+    "learning_rate": 3.65e-07,
+    "num_tokens": 868226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.7239864468574524e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.638,
+    "step": 1276
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000460358482087031,
+    "learning_rate": 3.6449999999999996e-07,
+    "num_tokens": 869122.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 2.530403435230255e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6385,
+    "step": 1277
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006261324742808938,
+    "learning_rate": 3.64e-07,
+    "num_tokens": 869488.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.293381839990616e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.639,
+    "step": 1278
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00068364676553756,
+    "learning_rate": 3.635e-07,
+    "num_tokens": 869854.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2297725081443787e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6395,
+    "step": 1279
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014128347393125296,
+    "learning_rate": 3.6299999999999995e-07,
+    "num_tokens": 870220.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.2020190954208374e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.64,
+    "step": 1280
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9464602470397949,
+    "learning_rate": 3.6249999999999997e-07,
+    "num_tokens": 871116.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7875000238418579,
+    "rewards/environment_reward_verifier/std": 0.05020460858941078,
+    "reward": 0.7875000238418579,
+    "reward_std": 0.05020460858941078,
+    "kl": 3.541354089975357e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6405,
+    "step": 1281
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.06001497805118561,
+    "learning_rate": 3.62e-07,
+    "num_tokens": 872012.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 0.0008651353418827057,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.641,
+    "step": 1282
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007043189834803343,
+    "learning_rate": 3.6149999999999995e-07,
+    "num_tokens": 872378.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.782978117465973e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6415,
+    "step": 1283
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0026320756878703833,
+    "learning_rate": 3.6099999999999996e-07,
+    "num_tokens": 872744.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 8.329004049301147e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.642,
+    "step": 1284
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6783477067947388,
+    "learning_rate": 3.605e-07,
+    "num_tokens": 873640.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.6607420295476913e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6425,
+    "step": 1285
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010286318138241768,
+    "learning_rate": 3.6e-07,
+    "num_tokens": 874006.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.1649524569511414e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.643,
+    "step": 1286
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2441000938415527,
+    "learning_rate": 3.5949999999999996e-07,
+    "num_tokens": 874902.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 8.106417953968048e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6435,
+    "step": 1287
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005106752272695303,
+    "learning_rate": 3.5899999999999997e-07,
+    "num_tokens": 875798.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.00012571550905704498,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.644,
+    "step": 1288
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1743097305297852,
+    "learning_rate": 3.585e-07,
+    "num_tokens": 876694.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8264999985694885,
+    "rewards/environment_reward_verifier/std": 0.004949725698679686,
+    "reward": 0.8264999985694885,
+    "reward_std": 0.004949725698679686,
+    "kl": 6.488896906375885e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6445,
+    "step": 1289
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9160370826721191,
+    "learning_rate": 3.5799999999999995e-07,
+    "num_tokens": 877590.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.824999988079071,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.824999988079071,
+    "reward_std": 0.011313731782138348,
+    "kl": 6.76717609167099e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.645,
+    "step": 1290
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009755863575264812,
+    "learning_rate": 3.5749999999999997e-07,
+    "num_tokens": 877956.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.708316504955292e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6455,
+    "step": 1291
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0256574153900146,
+    "learning_rate": 3.57e-07,
+    "num_tokens": 878852.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7944999933242798,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7944999933242798,
+    "reward_std": 0.0502045676112175,
+    "kl": 6.704498082399368e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.646,
+    "step": 1292
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010145347332581878,
+    "learning_rate": 3.5649999999999994e-07,
+    "num_tokens": 879218.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.818011075258255e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6465,
+    "step": 1293
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009893701644614339,
+    "learning_rate": 3.5599999999999996e-07,
+    "num_tokens": 879584.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.8242898881435394e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.647,
+    "step": 1294
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009004553430713713,
+    "learning_rate": 3.555e-07,
+    "num_tokens": 880480.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 3.14861536026001e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6475,
+    "step": 1295
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008759471238590777,
+    "learning_rate": 3.55e-07,
+    "num_tokens": 880846.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.798492252826691e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.648,
+    "step": 1296
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013422233751043677,
+    "learning_rate": 3.5449999999999995e-07,
+    "num_tokens": 881212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.2491981983184814e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6485,
+    "step": 1297
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004376707598567009,
+    "learning_rate": 3.5399999999999997e-07,
+    "num_tokens": 882108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 4.7217123210430145e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.649,
+    "step": 1298
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.0538861751556396,
+    "learning_rate": 3.535e-07,
+    "num_tokens": 883004.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.812999963760376,
+    "rewards/environment_reward_verifier/std": 0.009899493306875229,
+    "reward": 0.812999963760376,
+    "reward_std": 0.009899494238197803,
+    "kl": 6.355904042720795e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6495,
+    "step": 1299
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5427396893501282,
+    "learning_rate": 3.5299999999999994e-07,
+    "num_tokens": 883900.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.3927539587020874e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.65,
+    "step": 1300
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001437443308532238,
+    "learning_rate": 3.5249999999999996e-07,
+    "num_tokens": 884796.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 5.222763866186142e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6505,
+    "step": 1301
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9306321740150452,
+    "learning_rate": 3.52e-07,
+    "num_tokens": 885692.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7879999876022339,
+    "rewards/environment_reward_verifier/std": 0.05091170594096184,
+    "reward": 0.7879999876022339,
+    "reward_std": 0.05091170594096184,
+    "kl": 8.379947394132614e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.651,
+    "step": 1302
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002548660384491086,
+    "learning_rate": 3.5149999999999994e-07,
+    "num_tokens": 886058.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.484573870897293e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6515,
+    "step": 1303
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8278523683547974,
+    "learning_rate": 3.5099999999999995e-07,
+    "num_tokens": 886954.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 6.023421883583069e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.652,
+    "step": 1304
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6710245013237,
+    "learning_rate": 3.5049999999999997e-07,
+    "num_tokens": 887850.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.4685246646404266e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6525,
+    "step": 1305
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8050752282142639,
+    "learning_rate": 3.5e-07,
+    "num_tokens": 888746.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 5.374569445848465e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.653,
+    "step": 1306
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9615032076835632,
+    "learning_rate": 3.4949999999999995e-07,
+    "num_tokens": 889642.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 6.828084588050842e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6535,
+    "step": 1307
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010592974722385406,
+    "learning_rate": 3.4899999999999996e-07,
+    "num_tokens": 890008.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.003848880529404e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.654,
+    "step": 1308
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8069937825202942,
+    "learning_rate": 3.485e-07,
+    "num_tokens": 890904.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 7.432699203491211e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6545,
+    "step": 1309
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010740803554654121,
+    "learning_rate": 3.4799999999999994e-07,
+    "num_tokens": 891270.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.285760223865509e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.655,
+    "step": 1310
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000928595254663378,
+    "learning_rate": 3.4749999999999996e-07,
+    "num_tokens": 891636.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.1488947570323944e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6555,
+    "step": 1311
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6778450608253479,
+    "learning_rate": 3.4699999999999997e-07,
+    "num_tokens": 892532.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8004999756813049,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.8004999756813049,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.174692392349243e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.656,
+    "step": 1312
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012175820302218199,
+    "learning_rate": 3.4649999999999993e-07,
+    "num_tokens": 893428.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 4.419032484292984e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6565,
+    "step": 1313
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2002919912338257,
+    "learning_rate": 3.4599999999999995e-07,
+    "num_tokens": 894324.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00012012850493192673,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.657,
+    "step": 1314
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017943575512617826,
+    "learning_rate": 3.4549999999999996e-07,
+    "num_tokens": 894690.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.819050759077072e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6575,
+    "step": 1315
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8222445845603943,
+    "learning_rate": 3.45e-07,
+    "num_tokens": 895586.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.055079236626625e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.658,
+    "step": 1316
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006479246076196432,
+    "learning_rate": 3.4449999999999994e-07,
+    "num_tokens": 895952.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9908493161201477e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6585,
+    "step": 1317
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7560232877731323,
+    "learning_rate": 3.4399999999999996e-07,
+    "num_tokens": 896848.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 6.515160202980042e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.659,
+    "step": 1318
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.014223476871848106,
+    "learning_rate": 3.435e-07,
+    "num_tokens": 897744.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00023256801068782806,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6595,
+    "step": 1319
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.4846367835998535,
+    "learning_rate": 3.43e-07,
+    "num_tokens": 898640.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0004176180809736252,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.66,
+    "step": 1320
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008440379751846194,
+    "learning_rate": 3.425e-07,
+    "num_tokens": 899006.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8285197913646698e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6605,
+    "step": 1321
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6470924615859985,
+    "learning_rate": 3.42e-07,
+    "num_tokens": 899902.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8215000033378601,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8215000033378601,
+    "reward_std": 0.030405579134821892,
+    "kl": 8.140783756971359e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.661,
+    "step": 1322
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7923425436019897,
+    "learning_rate": 3.4150000000000003e-07,
+    "num_tokens": 900798.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8034999966621399,
+    "rewards/environment_reward_verifier/std": 0.004949725698679686,
+    "reward": 0.8034999966621399,
+    "reward_std": 0.004949725698679686,
+    "kl": 6.092153489589691e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6615,
+    "step": 1323
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007985649281181395,
+    "learning_rate": 3.41e-07,
+    "num_tokens": 901164.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.0151568353176117e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.662,
+    "step": 1324
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6748971343040466,
+    "learning_rate": 3.405e-07,
+    "num_tokens": 902060.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.894829958677292e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6625,
+    "step": 1325
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7054407000541687,
+    "learning_rate": 3.4000000000000003e-07,
+    "num_tokens": 902956.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.058742731809616e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.663,
+    "step": 1326
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00041221315041184425,
+    "learning_rate": 3.395e-07,
+    "num_tokens": 903852.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.8746592104434967e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6635,
+    "step": 1327
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.038646597415208817,
+    "learning_rate": 3.39e-07,
+    "num_tokens": 904748.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 0.00044205132871866226,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.664,
+    "step": 1328
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008110158960334957,
+    "learning_rate": 3.385e-07,
+    "num_tokens": 905114.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.74791294336319e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6645,
+    "step": 1329
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7750295400619507,
+    "learning_rate": 3.38e-07,
+    "num_tokens": 906010.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8289999961853027,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8289999961853027,
+    "reward_std": 0.0014141954015940428,
+    "kl": 4.74732369184494e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.665,
+    "step": 1330
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005337664624676108,
+    "learning_rate": 3.375e-07,
+    "num_tokens": 906906.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.6640092730522156e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6655,
+    "step": 1331
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010131035232916474,
+    "learning_rate": 3.37e-07,
+    "num_tokens": 907802.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 3.915652632713318e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.666,
+    "step": 1332
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7440443634986877,
+    "learning_rate": 3.3650000000000003e-07,
+    "num_tokens": 908698.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 2.2001564502716064e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6665,
+    "step": 1333
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008754681330174208,
+    "learning_rate": 3.36e-07,
+    "num_tokens": 909064.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.6763806343078613e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.667,
+    "step": 1334
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007677595713175833,
+    "learning_rate": 3.355e-07,
+    "num_tokens": 909430.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.990197390317917e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6675,
+    "step": 1335
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0044853463768959045,
+    "learning_rate": 3.35e-07,
+    "num_tokens": 910326.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.878000020980835,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.878000020980835,
+    "reward_std": 0.0,
+    "kl": 0.00011534057557582855,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.668,
+    "step": 1336
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005815306794829667,
+    "learning_rate": 3.345e-07,
+    "num_tokens": 910692.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.8213875591754913e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6685,
+    "step": 1337
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000703338417224586,
+    "learning_rate": 3.34e-07,
+    "num_tokens": 911058.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.180932253599167e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.669,
+    "step": 1338
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7522983551025391,
+    "learning_rate": 3.335e-07,
+    "num_tokens": 911954.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.4965574741363525e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6695,
+    "step": 1339
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0038247250486165285,
+    "learning_rate": 3.33e-07,
+    "num_tokens": 912850.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.000109134241938591,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.67,
+    "step": 1340
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8478634357452393,
+    "learning_rate": 3.325e-07,
+    "num_tokens": 913746.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 4.1466206312179565e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6705,
+    "step": 1341
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9138993620872498,
+    "learning_rate": 3.32e-07,
+    "num_tokens": 914642.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6004999876022339,
+    "rewards/environment_reward_verifier/std": 0.3090056777000427,
+    "reward": 0.6004999876022339,
+    "reward_std": 0.3090056777000427,
+    "kl": 8.696969598531723e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.671,
+    "step": 1342
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021632679272443056,
+    "learning_rate": 3.315e-07,
+    "num_tokens": 915008.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.276656985282898e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6715,
+    "step": 1343
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7756864428520203,
+    "learning_rate": 3.31e-07,
+    "num_tokens": 915904.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7914999723434448,
+    "rewards/environment_reward_verifier/std": 0.012020829133689404,
+    "reward": 0.7914999723434448,
+    "reward_std": 0.012020829133689404,
+    "kl": 3.759749233722687e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.672,
+    "step": 1344
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7610845565795898,
+    "learning_rate": 3.305e-07,
+    "num_tokens": 916800.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8270000219345093,
+    "rewards/environment_reward_verifier/std": 0.01131368987262249,
+    "reward": 0.8270000219345093,
+    "reward_std": 0.011313688941299915,
+    "kl": 2.3875385522842407e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6725,
+    "step": 1345
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004521695431321859,
+    "learning_rate": 3.3e-07,
+    "num_tokens": 917696.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 6.487127393484116e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.673,
+    "step": 1346
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1814557313919067,
+    "learning_rate": 3.295e-07,
+    "num_tokens": 918592.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.055154334753751755,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.055154334753751755,
+    "kl": 3.372412174940109e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6735,
+    "step": 1347
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7761304974555969,
+    "learning_rate": 3.29e-07,
+    "num_tokens": 919488.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 6.966851651668549e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.674,
+    "step": 1348
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001064626849256456,
+    "learning_rate": 3.285e-07,
+    "num_tokens": 919854.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.1544437408447266e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6745,
+    "step": 1349
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001295957830734551,
+    "learning_rate": 3.28e-07,
+    "num_tokens": 920220.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0192936062812805e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.675,
+    "step": 1350
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001216788194142282,
+    "learning_rate": 3.275e-07,
+    "num_tokens": 920586.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.43743371963501e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6755,
+    "step": 1351
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005596580449491739,
+    "learning_rate": 3.27e-07,
+    "num_tokens": 920952.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.292310819029808e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.676,
+    "step": 1352
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016285229939967394,
+    "learning_rate": 3.265e-07,
+    "num_tokens": 921848.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.9882026612758636e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6765,
+    "step": 1353
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7587524652481079,
+    "learning_rate": 3.26e-07,
+    "num_tokens": 922744.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 2.8314068913459778e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.677,
+    "step": 1354
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019900077022612095,
+    "learning_rate": 3.255e-07,
+    "num_tokens": 923110.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.9114227294921875e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6775,
+    "step": 1355
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5896979570388794,
+    "learning_rate": 3.25e-07,
+    "num_tokens": 924006.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.6628375053405762e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.678,
+    "step": 1356
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011802142253145576,
+    "learning_rate": 3.245e-07,
+    "num_tokens": 924372.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.596449434757233e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6785,
+    "step": 1357
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010036288294941187,
+    "learning_rate": 3.24e-07,
+    "num_tokens": 924738.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.07282093167305e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.679,
+    "step": 1358
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028521367348730564,
+    "learning_rate": 3.235e-07,
+    "num_tokens": 925634.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.950219929218292e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6795,
+    "step": 1359
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.016494104638695717,
+    "learning_rate": 3.23e-07,
+    "num_tokens": 926530.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 0.00013456307351589203,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.68,
+    "step": 1360
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004497945308685303,
+    "learning_rate": 3.225e-07,
+    "num_tokens": 927426.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.94649463891983e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6805,
+    "step": 1361
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003344974829815328,
+    "learning_rate": 3.22e-07,
+    "num_tokens": 927792.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.6856938600540161e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.681,
+    "step": 1362
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010008744429796934,
+    "learning_rate": 3.215e-07,
+    "num_tokens": 928158.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.93684783577919e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6815,
+    "step": 1363
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001206480897963047,
+    "learning_rate": 3.21e-07,
+    "num_tokens": 928524.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.2152201533317566e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.682,
+    "step": 1364
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016773812239989638,
+    "learning_rate": 3.205e-07,
+    "num_tokens": 929420.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.3534284234046936e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6825,
+    "step": 1365
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8313549160957336,
+    "learning_rate": 3.2e-07,
+    "num_tokens": 930316.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 8.157175034284592e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.683,
+    "step": 1366
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001157211372628808,
+    "learning_rate": 3.1949999999999997e-07,
+    "num_tokens": 930682.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.2526982724666595e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6835,
+    "step": 1367
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008214963017962873,
+    "learning_rate": 3.19e-07,
+    "num_tokens": 931578.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8560000061988831,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8560000061988831,
+    "reward_std": 0.0,
+    "kl": 4.2312778532505035e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.684,
+    "step": 1368
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6024468541145325,
+    "learning_rate": 3.185e-07,
+    "num_tokens": 932474.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 4.24971804022789e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6845,
+    "step": 1369
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001222139224410057,
+    "learning_rate": 3.18e-07,
+    "num_tokens": 932840.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.3324194848537445e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.685,
+    "step": 1370
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8489810824394226,
+    "learning_rate": 3.175e-07,
+    "num_tokens": 933736.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 6.651133298873901e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6855,
+    "step": 1371
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.011709213256836,
+    "learning_rate": 3.17e-07,
+    "num_tokens": 934632.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 0.00015988852828741074,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.686,
+    "step": 1372
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012633471051231027,
+    "learning_rate": 3.165e-07,
+    "num_tokens": 935528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.4710544645786285e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6865,
+    "step": 1373
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6183916330337524,
+    "learning_rate": 3.1599999999999997e-07,
+    "num_tokens": 936424.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 2.9399991035461426e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.687,
+    "step": 1374
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.01003769040107727,
+    "learning_rate": 3.155e-07,
+    "num_tokens": 937320.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 0.00016684457659721375,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6875,
+    "step": 1375
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010148925939574838,
+    "learning_rate": 3.15e-07,
+    "num_tokens": 937686.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9999762773513794e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.688,
+    "step": 1376
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001714242622256279,
+    "learning_rate": 3.1449999999999996e-07,
+    "num_tokens": 938582.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.853470742702484e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6885,
+    "step": 1377
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5588313341140747,
+    "learning_rate": 3.14e-07,
+    "num_tokens": 939478.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.02687004767358303,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.02687004767358303,
+    "kl": 1.4209188520908356e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.689,
+    "step": 1378
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000599015795160085,
+    "learning_rate": 3.135e-07,
+    "num_tokens": 939844.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7828849852085114e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6895,
+    "step": 1379
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5653384923934937,
+    "learning_rate": 3.13e-07,
+    "num_tokens": 940740.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 5.6372955441474915e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.69,
+    "step": 1380
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6871844530105591,
+    "learning_rate": 3.1249999999999997e-07,
+    "num_tokens": 941636.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31607675552368164,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31607675552368164,
+    "kl": 3.4996308386325836e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6905,
+    "step": 1381
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000714326451998204,
+    "learning_rate": 3.12e-07,
+    "num_tokens": 942002.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4284236133098602e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.691,
+    "step": 1382
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0217498540878296,
+    "learning_rate": 3.115e-07,
+    "num_tokens": 942898.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 6.504356861114502e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6915,
+    "step": 1383
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9927207231521606,
+    "learning_rate": 3.1099999999999997e-07,
+    "num_tokens": 943794.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7999999523162842,
+    "rewards/environment_reward_verifier/std": 0.04949747025966644,
+    "reward": 0.7999999523162842,
+    "reward_std": 0.04949747025966644,
+    "kl": 5.958974361419678e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.692,
+    "step": 1384
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008056789520196617,
+    "learning_rate": 3.105e-07,
+    "num_tokens": 944160.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.547128289937973e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6925,
+    "step": 1385
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7982547879219055,
+    "learning_rate": 3.1e-07,
+    "num_tokens": 945056.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8400000333786011,
+    "rewards/environment_reward_verifier/std": 0.056568533182144165,
+    "reward": 0.8400000333786011,
+    "reward_std": 0.056568533182144165,
+    "kl": 2.9597431421279907e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.693,
+    "step": 1386
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001857105758972466,
+    "learning_rate": 3.0949999999999996e-07,
+    "num_tokens": 945422.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.553755909204483e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6935,
+    "step": 1387
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009268614230677485,
+    "learning_rate": 3.09e-07,
+    "num_tokens": 945788.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6863068342208862e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.694,
+    "step": 1388
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.010713160037994385,
+    "learning_rate": 3.085e-07,
+    "num_tokens": 946154.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.249895811080933e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6945,
+    "step": 1389
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006943625630810857,
+    "learning_rate": 3.08e-07,
+    "num_tokens": 946520.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.0948780477046967e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.695,
+    "step": 1390
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005994713283143938,
+    "learning_rate": 3.0749999999999997e-07,
+    "num_tokens": 946886.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.208965063095093e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6955,
+    "step": 1391
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005941269919276237,
+    "learning_rate": 3.07e-07,
+    "num_tokens": 947782.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 3.443937748670578e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.696,
+    "step": 1392
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016281341668218374,
+    "learning_rate": 3.065e-07,
+    "num_tokens": 948678.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 5.4708682000637054e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6965,
+    "step": 1393
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008499264949932694,
+    "learning_rate": 3.0599999999999996e-07,
+    "num_tokens": 949044.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.64379957318306e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.697,
+    "step": 1394
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8996263146400452,
+    "learning_rate": 3.055e-07,
+    "num_tokens": 949940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 7.260870188474655e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6975,
+    "step": 1395
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001844099722802639,
+    "learning_rate": 3.05e-07,
+    "num_tokens": 950836.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 5.3627416491508484e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.698,
+    "step": 1396
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6437634229660034,
+    "learning_rate": 3.0449999999999995e-07,
+    "num_tokens": 951732.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 2.2635795176029205e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6985,
+    "step": 1397
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012192694703117013,
+    "learning_rate": 3.0399999999999997e-07,
+    "num_tokens": 952098.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7929432690143585e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.699,
+    "step": 1398
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.092392921447754,
+    "learning_rate": 3.035e-07,
+    "num_tokens": 952994.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 0.00012940727174282074,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6995,
+    "step": 1399
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012551175896078348,
+    "learning_rate": 3.03e-07,
+    "num_tokens": 953360.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.959665238857269e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7,
+    "step": 1400
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7426066994667053,
+    "learning_rate": 3.0249999999999996e-07,
+    "num_tokens": 954256.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7904999852180481,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7904999852180481,
+    "reward_std": 0.037476640194654465,
+    "kl": 2.7242116630077362e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7005,
+    "step": 1401
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8021246194839478,
+    "learning_rate": 3.02e-07,
+    "num_tokens": 955152.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.275927156209946e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.701,
+    "step": 1402
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010526307160034776,
+    "learning_rate": 3.015e-07,
+    "num_tokens": 955518.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.3847056329250336e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7015,
+    "step": 1403
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008919798419810832,
+    "learning_rate": 3.0099999999999996e-07,
+    "num_tokens": 956414.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.5351294577121735e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.702,
+    "step": 1404
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.9787451028823853,
+    "learning_rate": 3.0049999999999997e-07,
+    "num_tokens": 957310.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 5.8368779718875885e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7025,
+    "step": 1405
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8678433299064636,
+    "learning_rate": 3e-07,
+    "num_tokens": 958206.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.1750649213790894e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.703,
+    "step": 1406
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0366160869598389,
+    "learning_rate": 2.9949999999999995e-07,
+    "num_tokens": 959102.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 5.751661956310272e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7035,
+    "step": 1407
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.489668846130371,
+    "learning_rate": 2.9899999999999996e-07,
+    "num_tokens": 959998.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7999999523162842,
+    "rewards/environment_reward_verifier/std": 0.04949747025966644,
+    "reward": 0.7999999523162842,
+    "reward_std": 0.04949747025966644,
+    "kl": 0.00010025408118963242,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.704,
+    "step": 1408
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7787015438079834,
+    "learning_rate": 2.985e-07,
+    "num_tokens": 960894.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.357526242733002e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7045,
+    "step": 1409
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9409085512161255,
+    "learning_rate": 2.98e-07,
+    "num_tokens": 961790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.045254841446876526,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.045254841446876526,
+    "kl": 5.440693348646164e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.705,
+    "step": 1410
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015193913131952286,
+    "learning_rate": 2.9749999999999996e-07,
+    "num_tokens": 962686.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8140000104904175,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8140000104904175,
+    "reward_std": 0.0,
+    "kl": 6.182864308357239e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7055,
+    "step": 1411
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005187370115891099,
+    "learning_rate": 2.9699999999999997e-07,
+    "num_tokens": 963052.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.189353108406067e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.706,
+    "step": 1412
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.2034571170806885,
+    "learning_rate": 2.965e-07,
+    "num_tokens": 963948.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8250000476837158,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8250000476837158,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0003419136628508568,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7065,
+    "step": 1413
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008707343367859721,
+    "learning_rate": 2.9599999999999995e-07,
+    "num_tokens": 964314.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.70638445019722e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.707,
+    "step": 1414
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.6375908255577087,
+    "learning_rate": 2.9549999999999997e-07,
+    "num_tokens": 965210.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.01555635966360569,
+    "kl": 3.099162131547928e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7075,
+    "step": 1415
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0078327655792236,
+    "learning_rate": 2.95e-07,
+    "num_tokens": 966106.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.00013838708400726318,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.708,
+    "step": 1416
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003951544873416424,
+    "learning_rate": 2.945e-07,
+    "num_tokens": 966472.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 9.117741137742996e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7085,
+    "step": 1417
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012011009966954589,
+    "learning_rate": 2.9399999999999996e-07,
+    "num_tokens": 967368.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 6.767082959413528e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.709,
+    "step": 1418
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015257024206221104,
+    "learning_rate": 2.935e-07,
+    "num_tokens": 967734.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9396265745162964e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7095,
+    "step": 1419
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001377312932163477,
+    "learning_rate": 2.93e-07,
+    "num_tokens": 968630.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 3.4086406230926514e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.71,
+    "step": 1420
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00485027814283967,
+    "learning_rate": 2.9249999999999995e-07,
+    "num_tokens": 969526.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00010971631854772568,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7105,
+    "step": 1421
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008110209600999951,
+    "learning_rate": 2.9199999999999997e-07,
+    "num_tokens": 969892.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.389533281326294e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.711,
+    "step": 1422
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.8266608119010925,
+    "learning_rate": 2.915e-07,
+    "num_tokens": 970788.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 2.826191484928131e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7115,
+    "step": 1423
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00047775241546332836,
+    "learning_rate": 2.9099999999999995e-07,
+    "num_tokens": 971684.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3300759494304657e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.712,
+    "step": 1424
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2217819690704346,
+    "learning_rate": 2.9049999999999996e-07,
+    "num_tokens": 972580.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.288515239953995e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7125,
+    "step": 1425
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6611891984939575,
+    "learning_rate": 2.9e-07,
+    "num_tokens": 973476.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.824999988079071,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.824999988079071,
+    "reward_std": 0.011313731782138348,
+    "kl": 4.2975880205631256e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.713,
+    "step": 1426
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005366262048482895,
+    "learning_rate": 2.895e-07,
+    "num_tokens": 973842.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.587307244539261e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7135,
+    "step": 1427
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000767569406889379,
+    "learning_rate": 2.8899999999999995e-07,
+    "num_tokens": 974208.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7854926884174347e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.714,
+    "step": 1428
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00042317734914831817,
+    "learning_rate": 2.8849999999999997e-07,
+    "num_tokens": 975104.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 2.3975037038326263e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7145,
+    "step": 1429
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00044755812268704176,
+    "learning_rate": 2.88e-07,
+    "num_tokens": 976000.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.5684013962745667e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.715,
+    "step": 1430
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008439691155217588,
+    "learning_rate": 2.8749999999999995e-07,
+    "num_tokens": 976366.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.1568499505519867e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7155,
+    "step": 1431
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013360042357817292,
+    "learning_rate": 2.8699999999999996e-07,
+    "num_tokens": 976732.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.739702075719833e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.716,
+    "step": 1432
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004178944975137711,
+    "learning_rate": 2.865e-07,
+    "num_tokens": 977098.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 7.513351738452911e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7165,
+    "step": 1433
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007262816070578992,
+    "learning_rate": 2.8599999999999994e-07,
+    "num_tokens": 977464.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.949777990579605e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.717,
+    "step": 1434
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012204928789287806,
+    "learning_rate": 2.8549999999999996e-07,
+    "num_tokens": 977830.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.5828910768032074e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7175,
+    "step": 1435
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8220816254615784,
+    "learning_rate": 2.8499999999999997e-07,
+    "num_tokens": 978726.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 0.00011288374662399292,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.718,
+    "step": 1436
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007931955042295158,
+    "learning_rate": 2.845e-07,
+    "num_tokens": 979092.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.172643482685089e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7185,
+    "step": 1437
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1544042825698853,
+    "learning_rate": 2.8399999999999995e-07,
+    "num_tokens": 979988.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8355000019073486,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8355000019073486,
+    "reward_std": 0.030405579134821892,
+    "kl": 7.341429591178894e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.719,
+    "step": 1438
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005520334816537797,
+    "learning_rate": 2.8349999999999996e-07,
+    "num_tokens": 980884.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.8331764042377472e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7195,
+    "step": 1439
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004403255879878998,
+    "learning_rate": 2.83e-07,
+    "num_tokens": 981250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.0412728190422058e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.72,
+    "step": 1440
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7322037220001221,
+    "learning_rate": 2.8249999999999994e-07,
+    "num_tokens": 982146.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.950243651866913e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7205,
+    "step": 1441
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010377311846241355,
+    "learning_rate": 2.8199999999999996e-07,
+    "num_tokens": 982512.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.483425825834274e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.721,
+    "step": 1442
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5152266621589661,
+    "learning_rate": 2.8149999999999997e-07,
+    "num_tokens": 983408.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 1.6961246728897095e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7215,
+    "step": 1443
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004680828657001257,
+    "learning_rate": 2.8100000000000004e-07,
+    "num_tokens": 983774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.511714309453964e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.722,
+    "step": 1444
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006535202264785767,
+    "learning_rate": 2.805e-07,
+    "num_tokens": 984670.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.348011523485184e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7225,
+    "step": 1445
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008985276799649,
+    "learning_rate": 2.8e-07,
+    "num_tokens": 985036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.367103636264801e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.723,
+    "step": 1446
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010757588315755129,
+    "learning_rate": 2.7950000000000003e-07,
+    "num_tokens": 985932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 4.555657505989075e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7235,
+    "step": 1447
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008238382870331407,
+    "learning_rate": 2.79e-07,
+    "num_tokens": 986298.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9938295483589172e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.724,
+    "step": 1448
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008969150367192924,
+    "learning_rate": 2.785e-07,
+    "num_tokens": 986664.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.353878855705261e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7245,
+    "step": 1449
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009511377429589629,
+    "learning_rate": 2.7800000000000003e-07,
+    "num_tokens": 987030.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.065129905939102e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.725,
+    "step": 1450
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007412993581965566,
+    "learning_rate": 2.775e-07,
+    "num_tokens": 987396.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.939479261636734e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7255,
+    "step": 1451
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006103027262724936,
+    "learning_rate": 2.77e-07,
+    "num_tokens": 987762.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.47051939368248e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.726,
+    "step": 1452
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012461054138839245,
+    "learning_rate": 2.765e-07,
+    "num_tokens": 988128.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.908908158540726e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7265,
+    "step": 1453
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7985588908195496,
+    "learning_rate": 2.7600000000000004e-07,
+    "num_tokens": 989024.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7854999899864197,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7854999899864197,
+    "reward_std": 0.037476640194654465,
+    "kl": 4.825275391340256e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.727,
+    "step": 1454
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008023115806281567,
+    "learning_rate": 2.755e-07,
+    "num_tokens": 989920.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.208313137292862e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7275,
+    "step": 1455
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016813237452879548,
+    "learning_rate": 2.75e-07,
+    "num_tokens": 990286.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.5924057960510254e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.728,
+    "step": 1456
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013601853279396892,
+    "learning_rate": 2.7450000000000003e-07,
+    "num_tokens": 990652.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.119200795888901e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7285,
+    "step": 1457
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.802211344242096,
+    "learning_rate": 2.74e-07,
+    "num_tokens": 991548.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.0021212929859757423,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.0021212929859757423,
+    "kl": 5.8710575103759766e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.729,
+    "step": 1458
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0022085753735154867,
+    "learning_rate": 2.735e-07,
+    "num_tokens": 991914.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.9602782130241394e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7295,
+    "step": 1459
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007408488309010863,
+    "learning_rate": 2.73e-07,
+    "num_tokens": 992280.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.52049246430397e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.73,
+    "step": 1460
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001600884017534554,
+    "learning_rate": 2.725e-07,
+    "num_tokens": 993176.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8560000061988831,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8560000061988831,
+    "reward_std": 0.0,
+    "kl": 6.529409438371658e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7305,
+    "step": 1461
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013077593175694346,
+    "learning_rate": 2.72e-07,
+    "num_tokens": 993542.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.763249307870865e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.731,
+    "step": 1462
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006298540392890573,
+    "learning_rate": 2.715e-07,
+    "num_tokens": 994438.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 2.8800219297409058e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7315,
+    "step": 1463
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1219033002853394,
+    "learning_rate": 2.7100000000000003e-07,
+    "num_tokens": 995334.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 0.00019954796880483627,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.732,
+    "step": 1464
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009468385251238942,
+    "learning_rate": 2.705e-07,
+    "num_tokens": 996230.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.38199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.38199999928474426,
+    "reward_std": 0.0,
+    "kl": 3.767292946577072e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7325,
+    "step": 1465
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015062256716191769,
+    "learning_rate": 2.7e-07,
+    "num_tokens": 996596.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.980271190404892e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.733,
+    "step": 1466
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000680701807141304,
+    "learning_rate": 2.695e-07,
+    "num_tokens": 997492.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 4.730746150016785e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7335,
+    "step": 1467
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00220138905569911,
+    "learning_rate": 2.69e-07,
+    "num_tokens": 997858.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.7437152564525604e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.734,
+    "step": 1468
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007745574112050235,
+    "learning_rate": 2.685e-07,
+    "num_tokens": 998754.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 2.881605178117752e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7345,
+    "step": 1469
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7212503552436829,
+    "learning_rate": 2.68e-07,
+    "num_tokens": 999650.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.0021212929859757423,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.0021212929859757423,
+    "kl": 0.00011175964027643204,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.735,
+    "step": 1470
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7467300295829773,
+    "learning_rate": 2.675e-07,
+    "num_tokens": 1000546.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 3.479979932308197e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7355,
+    "step": 1471
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011473192134872079,
+    "learning_rate": 2.67e-07,
+    "num_tokens": 1000912.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.285760223865509e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.736,
+    "step": 1472
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6855739951133728,
+    "learning_rate": 2.665e-07,
+    "num_tokens": 1001808.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.9821880161762238e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7365,
+    "step": 1473
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009315242641605437,
+    "learning_rate": 2.66e-07,
+    "num_tokens": 1002174.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.0528753995895386e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.737,
+    "step": 1474
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007502164226025343,
+    "learning_rate": 2.655e-07,
+    "num_tokens": 1003070.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 4.344619810581207e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7375,
+    "step": 1475
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011874843621626496,
+    "learning_rate": 2.65e-07,
+    "num_tokens": 1003436.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.520399332046509e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.738,
+    "step": 1476
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0074364058673381805,
+    "learning_rate": 2.645e-07,
+    "num_tokens": 1004332.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8569999933242798,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8569999933242798,
+    "reward_std": 0.0,
+    "kl": 0.00015626568347215652,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7385,
+    "step": 1477
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6913915276527405,
+    "learning_rate": 2.64e-07,
+    "num_tokens": 1005228.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.3711472749710083e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.739,
+    "step": 1478
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7458115816116333,
+    "learning_rate": 2.635e-07,
+    "num_tokens": 1006124.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5744999647140503,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5744999647140503,
+    "reward_std": 0.27082186937332153,
+    "kl": 4.4743530452251434e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7395,
+    "step": 1479
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9545727968215942,
+    "learning_rate": 2.63e-07,
+    "num_tokens": 1007020.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 5.8341771364212036e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.74,
+    "step": 1480
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005918386159464717,
+    "learning_rate": 2.625e-07,
+    "num_tokens": 1007386.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8104521334171295e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7405,
+    "step": 1481
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007409105310216546,
+    "learning_rate": 2.62e-07,
+    "num_tokens": 1008282.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 3.8562342524528503e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.741,
+    "step": 1482
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0022666389122605324,
+    "learning_rate": 2.615e-07,
+    "num_tokens": 1009178.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8560000061988831,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8560000061988831,
+    "reward_std": 0.0,
+    "kl": 5.13000413775444e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7415,
+    "step": 1483
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009365888545289636,
+    "learning_rate": 2.61e-07,
+    "num_tokens": 1009544.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.640167415142059e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.742,
+    "step": 1484
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014286866644397378,
+    "learning_rate": 2.605e-07,
+    "num_tokens": 1009910.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.191882908344269e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7425,
+    "step": 1485
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000844051013700664,
+    "learning_rate": 2.6e-07,
+    "num_tokens": 1010276.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.2312084436416626e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.743,
+    "step": 1486
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8638677000999451,
+    "learning_rate": 2.595e-07,
+    "num_tokens": 1011172.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 5.143415182828903e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7435,
+    "step": 1487
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.019279703497886658,
+    "learning_rate": 2.59e-07,
+    "num_tokens": 1012068.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8569999933242798,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8569999933242798,
+    "reward_std": 0.0,
+    "kl": 0.00023065321147441864,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.744,
+    "step": 1488
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011295841541141272,
+    "learning_rate": 2.585e-07,
+    "num_tokens": 1012434.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.8337504267692566e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7445,
+    "step": 1489
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028237486258149147,
+    "learning_rate": 2.58e-07,
+    "num_tokens": 1012800.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.197750240564346e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.745,
+    "step": 1490
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7583287358283997,
+    "learning_rate": 2.5749999999999997e-07,
+    "num_tokens": 1013696.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 6.28037378191948e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7455,
+    "step": 1491
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9933559894561768,
+    "learning_rate": 2.57e-07,
+    "num_tokens": 1014592.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8365000486373901,
+    "rewards/environment_reward_verifier/std": 0.01909189112484455,
+    "reward": 0.8365000486373901,
+    "reward_std": 0.01909189112484455,
+    "kl": 8.109863847494125e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.746,
+    "step": 1492
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.006516456604004,
+    "learning_rate": 2.565e-07,
+    "num_tokens": 1015488.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 8.907169103622437e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7465,
+    "step": 1493
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009460377041250467,
+    "learning_rate": 2.56e-07,
+    "num_tokens": 1015854.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.212092608213425e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.747,
+    "step": 1494
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.029313264414668083,
+    "learning_rate": 2.555e-07,
+    "num_tokens": 1016750.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.00027726683765649796,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7475,
+    "step": 1495
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.48710012435913086,
+    "learning_rate": 2.55e-07,
+    "num_tokens": 1017646.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.0809471607208252e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.748,
+    "step": 1496
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6663738489151001,
+    "learning_rate": 2.545e-07,
+    "num_tokens": 1018542.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8109999895095825,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8109999895095825,
+    "reward_std": 0.01555635966360569,
+    "kl": 5.486141890287399e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7485,
+    "step": 1497
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006897600833326578,
+    "learning_rate": 2.5399999999999997e-07,
+    "num_tokens": 1018908.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.488214522600174e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.749,
+    "step": 1498
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011770074488595128,
+    "learning_rate": 2.535e-07,
+    "num_tokens": 1019804.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.8412010073661804e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7495,
+    "step": 1499
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006154448492452502,
+    "learning_rate": 2.53e-07,
+    "num_tokens": 1020700.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.367103636264801e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.75,
+    "step": 1500
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016679060645401478,
+    "learning_rate": 2.5249999999999996e-07,
+    "num_tokens": 1021066.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.5816955864429474e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7505,
+    "step": 1501
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.541278064250946,
+    "learning_rate": 2.52e-07,
+    "num_tokens": 1021962.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8285000324249268,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8285000324249268,
+    "reward_std": 0.0007070977007970214,
+    "kl": 0.00013221707195043564,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.751,
+    "step": 1502
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014445210108533502,
+    "learning_rate": 2.515e-07,
+    "num_tokens": 1022328.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.9596110582351685e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7515,
+    "step": 1503
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7894119620323181,
+    "learning_rate": 2.51e-07,
+    "num_tokens": 1023224.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.7989579141139984e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.752,
+    "step": 1504
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007809365633875132,
+    "learning_rate": 2.5049999999999997e-07,
+    "num_tokens": 1023590.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 7.900409400463104e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7525,
+    "step": 1505
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001254385570064187,
+    "learning_rate": 2.5e-07,
+    "num_tokens": 1023956.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.07220795750618e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.753,
+    "step": 1506
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020893942564725876,
+    "learning_rate": 2.495e-07,
+    "num_tokens": 1024852.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8360000252723694,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8360000252723694,
+    "reward_std": 0.0,
+    "kl": 0.00010944623500108719,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7535,
+    "step": 1507
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008904547430574894,
+    "learning_rate": 2.4899999999999997e-07,
+    "num_tokens": 1025748.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 3.521237522363663e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.754,
+    "step": 1508
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0072859525680542,
+    "learning_rate": 2.485e-07,
+    "num_tokens": 1026644.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 1.9727274775505066e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7545,
+    "step": 1509
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005649761762470007,
+    "learning_rate": 2.48e-07,
+    "num_tokens": 1027540.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00011086929589509964,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.755,
+    "step": 1510
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9958588480949402,
+    "learning_rate": 2.475e-07,
+    "num_tokens": 1028436.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.7653371691703796e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7555,
+    "step": 1511
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2141926288604736,
+    "learning_rate": 2.47e-07,
+    "num_tokens": 1029332.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.609499990940094,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.609499990940094,
+    "reward_std": 0.32031938433647156,
+    "kl": 8.317455649375916e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.756,
+    "step": 1512
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011213469551876187,
+    "learning_rate": 2.465e-07,
+    "num_tokens": 1029698.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.226900637149811e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7565,
+    "step": 1513
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7629797458648682,
+    "learning_rate": 2.46e-07,
+    "num_tokens": 1030594.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.6388093829154968e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.757,
+    "step": 1514
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5527917742729187,
+    "learning_rate": 2.4549999999999997e-07,
+    "num_tokens": 1031490.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.778243601322174e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7575,
+    "step": 1515
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6782432794570923,
+    "learning_rate": 2.45e-07,
+    "num_tokens": 1032386.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8355000019073486,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8355000019073486,
+    "reward_std": 0.030405579134821892,
+    "kl": 5.2094459533691406e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.758,
+    "step": 1516
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0038548826705664396,
+    "learning_rate": 2.445e-07,
+    "num_tokens": 1033282.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.38199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.38199999928474426,
+    "reward_std": 0.0,
+    "kl": 7.656030356884003e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7585,
+    "step": 1517
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009280137601308525,
+    "learning_rate": 2.4399999999999996e-07,
+    "num_tokens": 1033648.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.349354326725006e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.759,
+    "step": 1518
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006928169168531895,
+    "learning_rate": 2.435e-07,
+    "num_tokens": 1034544.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 3.481842577457428e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7595,
+    "step": 1519
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008756217430345714,
+    "learning_rate": 2.43e-07,
+    "num_tokens": 1034910.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8233975172042847e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.76,
+    "step": 1520
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006150489789433777,
+    "learning_rate": 2.425e-07,
+    "num_tokens": 1035806.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 4.21423465013504e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7605,
+    "step": 1521
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9960310459136963,
+    "learning_rate": 2.4199999999999997e-07,
+    "num_tokens": 1036702.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 0.00010388623923063278,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.761,
+    "step": 1522
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7770252823829651,
+    "learning_rate": 2.415e-07,
+    "num_tokens": 1037598.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.565500020980835,
+    "rewards/environment_reward_verifier/std": 0.2637507915496826,
+    "reward": 0.565500020980835,
+    "reward_std": 0.2637507915496826,
+    "kl": 5.447492003440857e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7615,
+    "step": 1523
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8710464239120483,
+    "learning_rate": 2.41e-07,
+    "num_tokens": 1038494.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8454999923706055,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8454999923706055,
+    "reward_std": 0.014849262312054634,
+    "kl": 3.6337412893772125e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.762,
+    "step": 1524
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007435260922648013,
+    "learning_rate": 2.4049999999999996e-07,
+    "num_tokens": 1038860.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6765279471874237e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7625,
+    "step": 1525
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7789291739463806,
+    "learning_rate": 2.4e-07,
+    "num_tokens": 1039756.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.844313323497772e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.763,
+    "step": 1526
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.866211473941803,
+    "learning_rate": 2.395e-07,
+    "num_tokens": 1040652.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 7.869582623243332e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7635,
+    "step": 1527
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014106653397902846,
+    "learning_rate": 2.3899999999999996e-07,
+    "num_tokens": 1041548.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 4.794169217348099e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.764,
+    "step": 1528
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.925835907459259,
+    "learning_rate": 2.3849999999999997e-07,
+    "num_tokens": 1042444.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7999999523162842,
+    "rewards/environment_reward_verifier/std": 0.04949747025966644,
+    "reward": 0.7999999523162842,
+    "reward_std": 0.04949747025966644,
+    "kl": 5.22807240486145e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7645,
+    "step": 1529
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028158905915915966,
+    "learning_rate": 2.38e-07,
+    "num_tokens": 1042810.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 8.856505155563354e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.765,
+    "step": 1530
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6579874753952026,
+    "learning_rate": 2.3749999999999998e-07,
+    "num_tokens": 1043706.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8004999756813049,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.8004999756813049,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.453584551811218e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7655,
+    "step": 1531
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006663826643489301,
+    "learning_rate": 2.3699999999999996e-07,
+    "num_tokens": 1044072.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.5161541998386383e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.766,
+    "step": 1532
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009142456110566854,
+    "learning_rate": 2.3649999999999998e-07,
+    "num_tokens": 1044438.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.51443886756897e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7665,
+    "step": 1533
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010897335596382618,
+    "learning_rate": 2.3599999999999997e-07,
+    "num_tokens": 1044804.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.8941390812397e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.767,
+    "step": 1534
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9638667106628418,
+    "learning_rate": 2.3549999999999998e-07,
+    "num_tokens": 1045700.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 9.973067790269852e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7675,
+    "step": 1535
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 0.1486448496580124,
+    "learning_rate": 2.3499999999999997e-07,
+    "num_tokens": 1046596.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 0.0019078860059380531,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.768,
+    "step": 1536
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011578103294596076,
+    "learning_rate": 2.3449999999999996e-07,
+    "num_tokens": 1046962.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.5416876673698425e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7685,
+    "step": 1537
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000997197232209146,
+    "learning_rate": 2.34e-07,
+    "num_tokens": 1047328.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.3618882298469543e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.769,
+    "step": 1538
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001980582484975457,
+    "learning_rate": 2.335e-07,
+    "num_tokens": 1048224.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8360000252723694,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8360000252723694,
+    "reward_std": 0.0,
+    "kl": 5.5631622672080994e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7695,
+    "step": 1539
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7257095575332642,
+    "learning_rate": 2.33e-07,
+    "num_tokens": 1049120.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 3.772880882024765e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.77,
+    "step": 1540
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010103528620675206,
+    "learning_rate": 2.325e-07,
+    "num_tokens": 1049486.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.966689109802246e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7705,
+    "step": 1541
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7430920004844666,
+    "learning_rate": 2.32e-07,
+    "num_tokens": 1050382.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 4.794076085090637e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.771,
+    "step": 1542
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009718029759824276,
+    "learning_rate": 2.315e-07,
+    "num_tokens": 1051278.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.123484879732132e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7715,
+    "step": 1543
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.5792695879936218,
+    "learning_rate": 2.31e-07,
+    "num_tokens": 1052174.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8209999799728394,
+    "rewards/environment_reward_verifier/std": 0.0014142375439405441,
+    "reward": 0.8209999799728394,
+    "reward_std": 0.0014142375439405441,
+    "kl": 5.393102765083313e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.772,
+    "step": 1544
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2712446451187134,
+    "learning_rate": 2.305e-07,
+    "num_tokens": 1053070.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5900000333786011,
+    "rewards/environment_reward_verifier/std": 0.29698485136032104,
+    "reward": 0.5900000333786011,
+    "reward_std": 0.29698485136032104,
+    "kl": 6.802938878536224e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7725,
+    "step": 1545
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6029819250106812,
+    "learning_rate": 2.3e-07,
+    "num_tokens": 1053966.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 4.980899393558502e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.773,
+    "step": 1546
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7989152073860168,
+    "learning_rate": 2.295e-07,
+    "num_tokens": 1054862.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843500018119812,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.843500018119812,
+    "reward_std": 0.016263457015156746,
+    "kl": 6.110034883022308e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7735,
+    "step": 1547
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020734556019306183,
+    "learning_rate": 2.29e-07,
+    "num_tokens": 1055228.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.111882299184799e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.774,
+    "step": 1548
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1049245595932007,
+    "learning_rate": 2.285e-07,
+    "num_tokens": 1056124.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.815500020980835,
+    "rewards/environment_reward_verifier/std": 0.012020829133689404,
+    "reward": 0.815500020980835,
+    "reward_std": 0.012020829133689404,
+    "kl": 0.00013441313058137894,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7745,
+    "step": 1549
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004347025416791439,
+    "learning_rate": 2.28e-07,
+    "num_tokens": 1057020.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8560000061988831,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8560000061988831,
+    "reward_std": 0.0,
+    "kl": 3.883149474859238e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.775,
+    "step": 1550
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0030298628844320774,
+    "learning_rate": 2.275e-07,
+    "num_tokens": 1057386.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.721703827381134e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7755,
+    "step": 1551
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004023867077194154,
+    "learning_rate": 2.27e-07,
+    "num_tokens": 1058282.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 1.8894672393798828e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.776,
+    "step": 1552
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006335912039503455,
+    "learning_rate": 2.265e-07,
+    "num_tokens": 1058648.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.3688189685344696e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7765,
+    "step": 1553
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8788871169090271,
+    "learning_rate": 2.2599999999999999e-07,
+    "num_tokens": 1059544.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 8.051283657550812e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.777,
+    "step": 1554
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010447928216308355,
+    "learning_rate": 2.255e-07,
+    "num_tokens": 1059910.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.571396857500076e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7775,
+    "step": 1555
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9580017924308777,
+    "learning_rate": 2.25e-07,
+    "num_tokens": 1060806.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 5.83576038479805e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.778,
+    "step": 1556
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000741632713470608,
+    "learning_rate": 2.245e-07,
+    "num_tokens": 1061172.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6345252990722656e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7785,
+    "step": 1557
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7395283579826355,
+    "learning_rate": 2.24e-07,
+    "num_tokens": 1062068.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 4.054047167301178e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.779,
+    "step": 1558
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001459570717997849,
+    "learning_rate": 2.2349999999999998e-07,
+    "num_tokens": 1062434.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.2844563722610474e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7795,
+    "step": 1559
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007419899338856339,
+    "learning_rate": 2.23e-07,
+    "num_tokens": 1063330.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.408787935972214e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.78,
+    "step": 1560
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.872297465801239,
+    "learning_rate": 2.225e-07,
+    "num_tokens": 1064226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6190000176429749,
+    "rewards/environment_reward_verifier/std": 0.33516862988471985,
+    "reward": 0.6190000176429749,
+    "reward_std": 0.33516862988471985,
+    "kl": 8.444022387266159e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7805,
+    "step": 1561
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013025372754782438,
+    "learning_rate": 2.22e-07,
+    "num_tokens": 1065122.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7879999876022339,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7879999876022339,
+    "reward_std": 0.0,
+    "kl": 4.2776577174663544e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.781,
+    "step": 1562
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7462071180343628,
+    "learning_rate": 2.215e-07,
+    "num_tokens": 1066018.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8314999938011169,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8314999938011169,
+    "reward_std": 0.016263457015156746,
+    "kl": 5.4595060646533966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7815,
+    "step": 1563
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002291295910254121,
+    "learning_rate": 2.2099999999999998e-07,
+    "num_tokens": 1066384.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.212666630744934e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.782,
+    "step": 1564
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.4264631271362305,
+    "learning_rate": 2.205e-07,
+    "num_tokens": 1067280.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8344999551773071,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8344999551773071,
+    "reward_std": 0.0007070977007970214,
+    "kl": 4.3925829231739044e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7825,
+    "step": 1565
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015623174840584397,
+    "learning_rate": 2.1999999999999998e-07,
+    "num_tokens": 1067646.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.921426832675934e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.783,
+    "step": 1566
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0029900292865931988,
+    "learning_rate": 2.195e-07,
+    "num_tokens": 1068012.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.1206756830215454e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7835,
+    "step": 1567
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0052716792561113834,
+    "learning_rate": 2.19e-07,
+    "num_tokens": 1068378.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00011092331260442734,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.784,
+    "step": 1568
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6562672853469849,
+    "learning_rate": 2.1849999999999998e-07,
+    "num_tokens": 1069274.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.1152740120887756e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7845,
+    "step": 1569
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9454992413520813,
+    "learning_rate": 2.18e-07,
+    "num_tokens": 1070170.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.633702337741852e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.785,
+    "step": 1570
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009240294457413256,
+    "learning_rate": 2.1749999999999998e-07,
+    "num_tokens": 1071066.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 5.4377131164073944e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7855,
+    "step": 1571
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005841344245709479,
+    "learning_rate": 2.17e-07,
+    "num_tokens": 1071432.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6757828891277313e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.786,
+    "step": 1572
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5484344959259033,
+    "learning_rate": 2.1649999999999999e-07,
+    "num_tokens": 1072328.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.045254841446876526,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.045254841446876526,
+    "kl": 4.1765160858631134e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7865,
+    "step": 1573
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011522466083988547,
+    "learning_rate": 2.1599999999999998e-07,
+    "num_tokens": 1072694.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.2556395530700684e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.787,
+    "step": 1574
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010642482666298747,
+    "learning_rate": 2.155e-07,
+    "num_tokens": 1073060.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.194250166416168e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7875,
+    "step": 1575
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004986397107131779,
+    "learning_rate": 2.1499999999999998e-07,
+    "num_tokens": 1073956.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 1.7260201275348663e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.788,
+    "step": 1576
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.010080178268253803,
+    "learning_rate": 2.145e-07,
+    "num_tokens": 1074852.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.0001212460920214653,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7885,
+    "step": 1577
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8077563047409058,
+    "learning_rate": 2.1399999999999998e-07,
+    "num_tokens": 1075748.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 0.00012228917330503464,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.789,
+    "step": 1578
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001300574280321598,
+    "learning_rate": 2.1349999999999997e-07,
+    "num_tokens": 1076114.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.275088965892792e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7895,
+    "step": 1579
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015755236381664872,
+    "learning_rate": 2.13e-07,
+    "num_tokens": 1076480.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.367103636264801e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.79,
+    "step": 1580
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020857423078268766,
+    "learning_rate": 2.1249999999999998e-07,
+    "num_tokens": 1076846.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.3896416425704956e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7905,
+    "step": 1581
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5299270153045654,
+    "learning_rate": 2.12e-07,
+    "num_tokens": 1077742.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.08909548819065094,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.08909548819065094,
+    "kl": 2.506934106349945e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.791,
+    "step": 1582
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011763119837269187,
+    "learning_rate": 2.1149999999999998e-07,
+    "num_tokens": 1078108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.5983120799064636e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7915,
+    "step": 1583
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001765949185937643,
+    "learning_rate": 2.1099999999999997e-07,
+    "num_tokens": 1079004.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.558839231729507e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.792,
+    "step": 1584
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000826952513307333,
+    "learning_rate": 2.1049999999999999e-07,
+    "num_tokens": 1079370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.525467425584793e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7925,
+    "step": 1585
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004427609674166888,
+    "learning_rate": 2.0999999999999997e-07,
+    "num_tokens": 1079736.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.3214536011219025e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.793,
+    "step": 1586
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011962472926825285,
+    "learning_rate": 2.095e-07,
+    "num_tokens": 1080102.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.326591104269028e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7935,
+    "step": 1587
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016075981548056006,
+    "learning_rate": 2.0899999999999998e-07,
+    "num_tokens": 1080468.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9566697776317596e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.794,
+    "step": 1588
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9348431825637817,
+    "learning_rate": 2.085e-07,
+    "num_tokens": 1081364.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 0.00014391914010047913,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7945,
+    "step": 1589
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 6.403285026550293,
+    "learning_rate": 2.0799999999999998e-07,
+    "num_tokens": 1082260.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.001313304528594017,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.795,
+    "step": 1590
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2276204824447632,
+    "learning_rate": 2.0749999999999997e-07,
+    "num_tokens": 1083156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8374999761581421,
+    "rewards/environment_reward_verifier/std": 0.026162952184677124,
+    "reward": 0.8374999761581421,
+    "reward_std": 0.026162952184677124,
+    "kl": 8.566584438085556e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7955,
+    "step": 1591
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7293785810470581,
+    "learning_rate": 2.07e-07,
+    "num_tokens": 1084052.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8289999961853027,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8289999961853027,
+    "reward_std": 0.0014141954015940428,
+    "kl": 6.05238601565361e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.796,
+    "step": 1592
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007735049584880471,
+    "learning_rate": 2.0649999999999998e-07,
+    "num_tokens": 1084418.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9413960874080658e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7965,
+    "step": 1593
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005749748088419437,
+    "learning_rate": 2.06e-07,
+    "num_tokens": 1084784.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9215978682041168e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.797,
+    "step": 1594
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0623031854629517,
+    "learning_rate": 2.0549999999999998e-07,
+    "num_tokens": 1085680.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 5.367118865251541e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7975,
+    "step": 1595
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7510759234428406,
+    "learning_rate": 2.0499999999999997e-07,
+    "num_tokens": 1086576.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 5.256757140159607e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.798,
+    "step": 1596
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7434391975402832,
+    "learning_rate": 2.0449999999999998e-07,
+    "num_tokens": 1087472.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 5.564093589782715e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7985,
+    "step": 1597
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007738731219433248,
+    "learning_rate": 2.0399999999999997e-07,
+    "num_tokens": 1088368.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7960000038146973,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7960000038146973,
+    "reward_std": 0.0,
+    "kl": 4.332512617111206e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.799,
+    "step": 1598
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5968071222305298,
+    "learning_rate": 2.035e-07,
+    "num_tokens": 1089264.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00015922915190458298,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7995,
+    "step": 1599
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011912197805941105,
+    "learning_rate": 2.03e-07,
+    "num_tokens": 1090160.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 5.2143819630146027e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8,
+    "step": 1600
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012906340416520834,
+    "learning_rate": 2.025e-07,
+    "num_tokens": 1091056.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.3326599299907684e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8005,
+    "step": 1601
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013231480261310935,
+    "learning_rate": 2.02e-07,
+    "num_tokens": 1091422.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.551706999540329e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.801,
+    "step": 1602
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00767257995903492,
+    "learning_rate": 2.015e-07,
+    "num_tokens": 1091788.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00010890420526266098,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8015,
+    "step": 1603
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014246352948248386,
+    "learning_rate": 2.01e-07,
+    "num_tokens": 1092684.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.878000020980835,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.878000020980835,
+    "reward_std": 0.0,
+    "kl": 4.823412746191025e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.802,
+    "step": 1604
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005558141507208347,
+    "learning_rate": 2.005e-07,
+    "num_tokens": 1093050.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.20640304684639e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8025,
+    "step": 1605
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.835629403591156,
+    "learning_rate": 2e-07,
+    "num_tokens": 1093946.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 6.555672734975815e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.803,
+    "step": 1606
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.010273814201355,
+    "learning_rate": 1.995e-07,
+    "num_tokens": 1094842.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.01555635966360569,
+    "kl": 8.833687752485275e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8035,
+    "step": 1607
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005389400757849216,
+    "learning_rate": 1.99e-07,
+    "num_tokens": 1095738.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 3.917329013347626e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.804,
+    "step": 1608
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001107304240576923,
+    "learning_rate": 1.985e-07,
+    "num_tokens": 1096634.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.467833787202835e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8045,
+    "step": 1609
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6192328929901123,
+    "learning_rate": 1.98e-07,
+    "num_tokens": 1097530.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.8448179364204407e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.805,
+    "step": 1610
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010528776329010725,
+    "learning_rate": 1.975e-07,
+    "num_tokens": 1097896.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.906952381134033e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8055,
+    "step": 1611
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8730188012123108,
+    "learning_rate": 1.97e-07,
+    "num_tokens": 1098792.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5659999847412109,
+    "rewards/environment_reward_verifier/std": 0.26304370164871216,
+    "reward": 0.5659999847412109,
+    "reward_std": 0.26304370164871216,
+    "kl": 8.165556937456131e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.806,
+    "step": 1612
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003221945371478796,
+    "learning_rate": 1.965e-07,
+    "num_tokens": 1099158.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.885811358690262e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8065,
+    "step": 1613
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002188287442550063,
+    "learning_rate": 1.96e-07,
+    "num_tokens": 1099524.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.95066186785698e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.807,
+    "step": 1614
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005099984700791538,
+    "learning_rate": 1.955e-07,
+    "num_tokens": 1100420.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 2.9620714485645294e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8075,
+    "step": 1615
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010692180367186666,
+    "learning_rate": 1.9499999999999999e-07,
+    "num_tokens": 1100786.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.5768222510814667e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.808,
+    "step": 1616
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000704990467056632,
+    "learning_rate": 1.945e-07,
+    "num_tokens": 1101682.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7565285563468933e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8085,
+    "step": 1617
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007767347269691527,
+    "learning_rate": 1.94e-07,
+    "num_tokens": 1102048.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.1250139474868774e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.809,
+    "step": 1618
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7776121497154236,
+    "learning_rate": 1.935e-07,
+    "num_tokens": 1102944.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5975000262260437,
+    "rewards/environment_reward_verifier/std": 0.3047630488872528,
+    "reward": 0.5975000262260437,
+    "reward_std": 0.3047630488872528,
+    "kl": 5.421321839094162e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8095,
+    "step": 1619
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.014690214768052101,
+    "learning_rate": 1.93e-07,
+    "num_tokens": 1103310.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00018547195941209793,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.81,
+    "step": 1620
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0280709266662598,
+    "learning_rate": 1.9249999999999998e-07,
+    "num_tokens": 1104206.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7904999852180481,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7904999852180481,
+    "reward_std": 0.037476640194654465,
+    "kl": 6.31827861070633e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8105,
+    "step": 1621
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1227260828018188,
+    "learning_rate": 1.92e-07,
+    "num_tokens": 1105102.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8250000476837158,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8250000476837158,
+    "reward_std": 0.01555635966360569,
+    "kl": 3.284774720668793e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.811,
+    "step": 1622
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007454422884620726,
+    "learning_rate": 1.915e-07,
+    "num_tokens": 1105468.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.224611282348633e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8115,
+    "step": 1623
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003449360141530633,
+    "learning_rate": 1.91e-07,
+    "num_tokens": 1105834.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.674812614917755e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.812,
+    "step": 1624
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00368543085642159,
+    "learning_rate": 1.905e-07,
+    "num_tokens": 1106730.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8429999947547913,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8429999947547913,
+    "reward_std": 0.0,
+    "kl": 7.947441190481186e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8125,
+    "step": 1625
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6739558577537537,
+    "learning_rate": 1.8999999999999998e-07,
+    "num_tokens": 1107626.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 4.8667192459106445e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.813,
+    "step": 1626
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015609045512974262,
+    "learning_rate": 1.895e-07,
+    "num_tokens": 1107992.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.3981166779994965e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8135,
+    "step": 1627
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005068195168860257,
+    "learning_rate": 1.8899999999999999e-07,
+    "num_tokens": 1108358.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.7039477825164795e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.814,
+    "step": 1628
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008186335908249021,
+    "learning_rate": 1.885e-07,
+    "num_tokens": 1108724.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.4374184906482697e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8145,
+    "step": 1629
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000544139591511339,
+    "learning_rate": 1.88e-07,
+    "num_tokens": 1109090.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.124680370092392e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.815,
+    "step": 1630
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011354797752574086,
+    "learning_rate": 1.875e-07,
+    "num_tokens": 1109456.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.385636955499649e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8155,
+    "step": 1631
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1252527236938477,
+    "learning_rate": 1.87e-07,
+    "num_tokens": 1110352.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 0.00012831855565309525,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.816,
+    "step": 1632
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8676841855049133,
+    "learning_rate": 1.8649999999999998e-07,
+    "num_tokens": 1111248.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8180000185966492,
+    "rewards/environment_reward_verifier/std": 0.007071061059832573,
+    "reward": 0.8180000185966492,
+    "reward_std": 0.007071061059832573,
+    "kl": 8.204672485589981e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8165,
+    "step": 1633
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011640795273706317,
+    "learning_rate": 1.86e-07,
+    "num_tokens": 1111614.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.4091994166374207e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.817,
+    "step": 1634
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010903201764449477,
+    "learning_rate": 1.855e-07,
+    "num_tokens": 1111980.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0804814994335175e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8175,
+    "step": 1635
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5268325805664062,
+    "learning_rate": 1.85e-07,
+    "num_tokens": 1112876.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 0.00013242289423942566,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.818,
+    "step": 1636
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005956660490483046,
+    "learning_rate": 1.845e-07,
+    "num_tokens": 1113242.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 8.577574044466019e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8185,
+    "step": 1637
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7777119874954224,
+    "learning_rate": 1.8399999999999998e-07,
+    "num_tokens": 1114138.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.387313336133957e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.819,
+    "step": 1638
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005967547767795622,
+    "learning_rate": 1.835e-07,
+    "num_tokens": 1115034.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 3.451574593782425e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8195,
+    "step": 1639
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9599042534828186,
+    "learning_rate": 1.8299999999999998e-07,
+    "num_tokens": 1115930.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843500018119812,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.843500018119812,
+    "reward_std": 0.016263457015156746,
+    "kl": 4.692375659942627e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.82,
+    "step": 1640
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.7044155597686768,
+    "learning_rate": 1.825e-07,
+    "num_tokens": 1116826.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.824999988079071,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.824999988079071,
+    "reward_std": 0.011313731782138348,
+    "kl": 0.00022888649255037308,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8205,
+    "step": 1641
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.786083996295929,
+    "learning_rate": 1.82e-07,
+    "num_tokens": 1117722.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8400000333786011,
+    "rewards/environment_reward_verifier/std": 0.014142164029181004,
+    "reward": 0.8400000333786011,
+    "reward_std": 0.014142164029181004,
+    "kl": 0.00013180077075958252,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.821,
+    "step": 1642
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021554480772465467,
+    "learning_rate": 1.8149999999999998e-07,
+    "num_tokens": 1118618.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 6.999168545007706e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8215,
+    "step": 1643
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006479070289060473,
+    "learning_rate": 1.81e-07,
+    "num_tokens": 1119514.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 3.351084887981415e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.822,
+    "step": 1644
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003548029053490609,
+    "learning_rate": 1.8049999999999998e-07,
+    "num_tokens": 1120410.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 2.230145037174225e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8225,
+    "step": 1645
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004329314921051264,
+    "learning_rate": 1.8e-07,
+    "num_tokens": 1121306.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 6.543286144733429e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.823,
+    "step": 1646
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009270249865949154,
+    "learning_rate": 1.7949999999999999e-07,
+    "num_tokens": 1121672.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.204828292131424e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8235,
+    "step": 1647
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0634018182754517,
+    "learning_rate": 1.7899999999999997e-07,
+    "num_tokens": 1122568.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 8.80332663655281e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.824,
+    "step": 1648
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007692989311181009,
+    "learning_rate": 1.785e-07,
+    "num_tokens": 1122934.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0349398255348206e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8245,
+    "step": 1649
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.007314886432141066,
+    "learning_rate": 1.7799999999999998e-07,
+    "num_tokens": 1123300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.086472421884537e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.825,
+    "step": 1650
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7849677801132202,
+    "learning_rate": 1.775e-07,
+    "num_tokens": 1124196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8355000019073486,
+    "rewards/environment_reward_verifier/std": 0.0007071398431435227,
+    "reward": 0.8355000019073486,
+    "reward_std": 0.0007071398431435227,
+    "kl": 6.0978345572948456e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8255,
+    "step": 1651
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008546906756237149,
+    "learning_rate": 1.7699999999999998e-07,
+    "num_tokens": 1124562.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.7396174371242523e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.826,
+    "step": 1652
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1525259017944336,
+    "learning_rate": 1.7649999999999997e-07,
+    "num_tokens": 1125458.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 4.562176764011383e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8265,
+    "step": 1653
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0002832186291925609,
+    "learning_rate": 1.76e-07,
+    "num_tokens": 1126354.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 1.0225921869277954e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.827,
+    "step": 1654
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5804024338722229,
+    "learning_rate": 1.7549999999999998e-07,
+    "num_tokens": 1127250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.338457852602005e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8275,
+    "step": 1655
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6778073906898499,
+    "learning_rate": 1.75e-07,
+    "num_tokens": 1128146.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.290083259344101e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.828,
+    "step": 1656
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8877629637718201,
+    "learning_rate": 1.7449999999999998e-07,
+    "num_tokens": 1129042.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.609499990940094,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.609499990940094,
+    "reward_std": 0.32031938433647156,
+    "kl": 4.7820620238780975e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8285,
+    "step": 1657
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015010101487860084,
+    "learning_rate": 1.7399999999999997e-07,
+    "num_tokens": 1129408.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.316974759101868e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.829,
+    "step": 1658
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008234889828599989,
+    "learning_rate": 1.7349999999999999e-07,
+    "num_tokens": 1129774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7329660952091217e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8295,
+    "step": 1659
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008635118720121682,
+    "learning_rate": 1.7299999999999997e-07,
+    "num_tokens": 1130140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.4356489777565e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.83,
+    "step": 1660
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002669265726581216,
+    "learning_rate": 1.725e-07,
+    "num_tokens": 1130506.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.825834184885025e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8305,
+    "step": 1661
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000953994516748935,
+    "learning_rate": 1.7199999999999998e-07,
+    "num_tokens": 1131402.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.698095679283142e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.831,
+    "step": 1662
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.48069429397583,
+    "learning_rate": 1.715e-07,
+    "num_tokens": 1132298.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 5.8494508266448975e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8315,
+    "step": 1663
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005689945537596941,
+    "learning_rate": 1.71e-07,
+    "num_tokens": 1133194.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8159999847412109,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8159999847412109,
+    "reward_std": 0.0,
+    "kl": 6.105750799179077e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.832,
+    "step": 1664
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001202125335112214,
+    "learning_rate": 1.705e-07,
+    "num_tokens": 1133560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.441477358341217e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8325,
+    "step": 1665
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0032958821393549442,
+    "learning_rate": 1.7000000000000001e-07,
+    "num_tokens": 1134456.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 7.745064795017242e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.833,
+    "step": 1666
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010330155491828918,
+    "learning_rate": 1.695e-07,
+    "num_tokens": 1134822.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.7510727047920227e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8335,
+    "step": 1667
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8912146091461182,
+    "learning_rate": 1.69e-07,
+    "num_tokens": 1135718.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 6.178673356771469e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.834,
+    "step": 1668
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021134400740265846,
+    "learning_rate": 1.685e-07,
+    "num_tokens": 1136614.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 4.889722913503647e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8345,
+    "step": 1669
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008316031889989972,
+    "learning_rate": 1.68e-07,
+    "num_tokens": 1137510.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.716256469488144e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.835,
+    "step": 1670
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015585101209580898,
+    "learning_rate": 1.675e-07,
+    "num_tokens": 1137876.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.109274595975876e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8355,
+    "step": 1671
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.0139520168304443,
+    "learning_rate": 1.67e-07,
+    "num_tokens": 1138772.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8215000033378601,
+    "rewards/environment_reward_verifier/std": 0.0021213351283222437,
+    "reward": 0.8215000033378601,
+    "reward_std": 0.0021213351283222437,
+    "kl": 7.60052353143692e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.836,
+    "step": 1672
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0027839159592986107,
+    "learning_rate": 1.665e-07,
+    "num_tokens": 1139668.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.0001286109909415245,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8365,
+    "step": 1673
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005201384774409235,
+    "learning_rate": 1.66e-07,
+    "num_tokens": 1140564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 2.318248152732849e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.837,
+    "step": 1674
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.770577609539032,
+    "learning_rate": 1.655e-07,
+    "num_tokens": 1141460.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 4.3759122490882874e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8375,
+    "step": 1675
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00833394005894661,
+    "learning_rate": 1.65e-07,
+    "num_tokens": 1142356.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 0.0002732565626502037,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.838,
+    "step": 1676
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025238515809178352,
+    "learning_rate": 1.645e-07,
+    "num_tokens": 1142722.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.789116352796555e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8385,
+    "step": 1677
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014516436494886875,
+    "learning_rate": 1.64e-07,
+    "num_tokens": 1143088.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0516104996204376e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.839,
+    "step": 1678
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005529244430363178,
+    "learning_rate": 1.635e-07,
+    "num_tokens": 1143984.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 0.00011143088340759277,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8395,
+    "step": 1679
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6549043655395508,
+    "learning_rate": 1.63e-07,
+    "num_tokens": 1144880.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8289999961853027,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8289999961853027,
+    "reward_std": 0.0014141954015940428,
+    "kl": 3.060977905988693e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.84,
+    "step": 1680
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004621714761015028,
+    "learning_rate": 1.625e-07,
+    "num_tokens": 1145776.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.2720545530319214e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8405,
+    "step": 1681
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9856705665588379,
+    "learning_rate": 1.62e-07,
+    "num_tokens": 1146672.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 6.997957825660706e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.841,
+    "step": 1682
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017308671958744526,
+    "learning_rate": 1.615e-07,
+    "num_tokens": 1147038.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.203019827604294e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8415,
+    "step": 1683
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009688741993159056,
+    "learning_rate": 1.61e-07,
+    "num_tokens": 1147404.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 9.158626198768616e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.842,
+    "step": 1684
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0487639904022217,
+    "learning_rate": 1.605e-07,
+    "num_tokens": 1148300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.657784640789032e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8425,
+    "step": 1685
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0018436646787449718,
+    "learning_rate": 1.6e-07,
+    "num_tokens": 1149196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 8.995365351438522e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.843,
+    "step": 1686
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003820388810709119,
+    "learning_rate": 1.595e-07,
+    "num_tokens": 1150092.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.00010778382420539856,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8435,
+    "step": 1687
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007333682733587921,
+    "learning_rate": 1.59e-07,
+    "num_tokens": 1150458.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9731000065803528e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.844,
+    "step": 1688
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4914136528968811,
+    "learning_rate": 1.585e-07,
+    "num_tokens": 1151354.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.796999990940094,
+    "rewards/environment_reward_verifier/std": 0.01272792648524046,
+    "reward": 0.796999990940094,
+    "reward_std": 0.01272792648524046,
+    "kl": 7.97836109995842e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8445,
+    "step": 1689
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016368223587051034,
+    "learning_rate": 1.5799999999999999e-07,
+    "num_tokens": 1152250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.654525011777878e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.845,
+    "step": 1690
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020018748473376036,
+    "learning_rate": 1.575e-07,
+    "num_tokens": 1152616.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.850273787975311e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8455,
+    "step": 1691
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017474376363679767,
+    "learning_rate": 1.57e-07,
+    "num_tokens": 1152982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.674440085887909e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.846,
+    "step": 1692
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006785112200304866,
+    "learning_rate": 1.565e-07,
+    "num_tokens": 1153348.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.52649188041687e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8465,
+    "step": 1693
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8353944420814514,
+    "learning_rate": 1.56e-07,
+    "num_tokens": 1154244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 7.278099656105042e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.847,
+    "step": 1694
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7937394976615906,
+    "learning_rate": 1.5549999999999998e-07,
+    "num_tokens": 1155140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8259999752044678,
+    "rewards/environment_reward_verifier/std": 0.01272792648524046,
+    "reward": 0.8259999752044678,
+    "reward_std": 0.01272792648524046,
+    "kl": 3.0454248189926147e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8475,
+    "step": 1695
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003463807515799999,
+    "learning_rate": 1.55e-07,
+    "num_tokens": 1155506.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.183741450309753e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.848,
+    "step": 1696
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009108221274800599,
+    "learning_rate": 1.545e-07,
+    "num_tokens": 1155872.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.233365714550018e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8485,
+    "step": 1697
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8065696954727173,
+    "learning_rate": 1.54e-07,
+    "num_tokens": 1156768.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5920000076293945,
+    "rewards/environment_reward_verifier/std": 0.30122748017311096,
+    "reward": 0.5920000076293945,
+    "reward_std": 0.30122748017311096,
+    "kl": 9.134132415056229e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.849,
+    "step": 1698
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0026033867616206408,
+    "learning_rate": 1.535e-07,
+    "num_tokens": 1157664.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8349999785423279,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8349999785423279,
+    "reward_std": 0.0,
+    "kl": 0.00015535764396190643,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8495,
+    "step": 1699
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007585044368170202,
+    "learning_rate": 1.5299999999999998e-07,
+    "num_tokens": 1158560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7849338948726654e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.85,
+    "step": 1700
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002312328899279237,
+    "learning_rate": 1.525e-07,
+    "num_tokens": 1158926.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.916893810033798e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8505,
+    "step": 1701
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00042824094998650253,
+    "learning_rate": 1.5199999999999998e-07,
+    "num_tokens": 1159822.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.4728477001190186e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.851,
+    "step": 1702
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008439371013082564,
+    "learning_rate": 1.515e-07,
+    "num_tokens": 1160718.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 4.475284367799759e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8515,
+    "step": 1703
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011333145666867495,
+    "learning_rate": 1.51e-07,
+    "num_tokens": 1161084.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.541726619005203e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.852,
+    "step": 1704
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006239201175048947,
+    "learning_rate": 1.5049999999999998e-07,
+    "num_tokens": 1161980.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 2.501765266060829e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8525,
+    "step": 1705
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005729427561163902,
+    "learning_rate": 1.5e-07,
+    "num_tokens": 1162346.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 0.00014315079897642136,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.853,
+    "step": 1706
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006242716335691512,
+    "learning_rate": 1.4949999999999998e-07,
+    "num_tokens": 1162712.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.430751919746399e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8535,
+    "step": 1707
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8198180794715881,
+    "learning_rate": 1.49e-07,
+    "num_tokens": 1163608.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 7.086340337991714e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.854,
+    "step": 1708
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9060729146003723,
+    "learning_rate": 1.4849999999999999e-07,
+    "num_tokens": 1164504.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 4.623178392648697e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8545,
+    "step": 1709
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7695682644844055,
+    "learning_rate": 1.4799999999999998e-07,
+    "num_tokens": 1165400.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 7.752608507871628e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.855,
+    "step": 1710
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0271371603012085,
+    "learning_rate": 1.475e-07,
+    "num_tokens": 1166296.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843500018119812,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.843500018119812,
+    "reward_std": 0.016263457015156746,
+    "kl": 4.950445145368576e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8555,
+    "step": 1711
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006063416949473321,
+    "learning_rate": 1.4699999999999998e-07,
+    "num_tokens": 1167192.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.437325358390808e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.856,
+    "step": 1712
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001116525148972869,
+    "learning_rate": 1.465e-07,
+    "num_tokens": 1167558.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.72264364361763e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8565,
+    "step": 1713
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012593928258866072,
+    "learning_rate": 1.4599999999999998e-07,
+    "num_tokens": 1167924.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.567353218793869e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.857,
+    "step": 1714
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7782901525497437,
+    "learning_rate": 1.4549999999999997e-07,
+    "num_tokens": 1168820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 5.462951958179474e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8575,
+    "step": 1715
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002288342686370015,
+    "learning_rate": 1.45e-07,
+    "num_tokens": 1169716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 8.028000593185425e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.858,
+    "step": 1716
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010321326553821564,
+    "learning_rate": 1.4449999999999998e-07,
+    "num_tokens": 1170612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8140000104904175,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8140000104904175,
+    "reward_std": 0.0,
+    "kl": 4.060007631778717e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8585,
+    "step": 1717
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7346194386482239,
+    "learning_rate": 1.44e-07,
+    "num_tokens": 1171508.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.4116598069667816e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.859,
+    "step": 1718
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014648967189714313,
+    "learning_rate": 1.4349999999999998e-07,
+    "num_tokens": 1172404.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 4.110205918550491e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8595,
+    "step": 1719
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004332505166530609,
+    "learning_rate": 1.4299999999999997e-07,
+    "num_tokens": 1173300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.0547532737255096e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.86,
+    "step": 1720
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006606621900573373,
+    "learning_rate": 1.4249999999999999e-07,
+    "num_tokens": 1174196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 2.1940097212791443e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8605,
+    "step": 1721
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0031862056348472834,
+    "learning_rate": 1.4199999999999997e-07,
+    "num_tokens": 1175092.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8230000138282776,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8230000138282776,
+    "reward_std": 0.0,
+    "kl": 5.89834526181221e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.861,
+    "step": 1722
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000561385415494442,
+    "learning_rate": 1.415e-07,
+    "num_tokens": 1175458.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7856789529323578e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8615,
+    "step": 1723
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8007268905639648,
+    "learning_rate": 1.4099999999999998e-07,
+    "num_tokens": 1176354.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31607675552368164,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31607675552368164,
+    "kl": 8.418131619691849e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.862,
+    "step": 1724
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013896668097004294,
+    "learning_rate": 1.4050000000000002e-07,
+    "num_tokens": 1176720.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7703121304512024e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8625,
+    "step": 1725
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015918755671009421,
+    "learning_rate": 1.4e-07,
+    "num_tokens": 1177616.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.09386882185936e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.863,
+    "step": 1726
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008370818104594946,
+    "learning_rate": 1.395e-07,
+    "num_tokens": 1177982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.082266241312027e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8635,
+    "step": 1727
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001225637854076922,
+    "learning_rate": 1.3900000000000001e-07,
+    "num_tokens": 1178878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 4.492839798331261e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.864,
+    "step": 1728
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013102650409564376,
+    "learning_rate": 1.385e-07,
+    "num_tokens": 1179774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8569999933242798,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8569999933242798,
+    "reward_std": 0.0,
+    "kl": 6.482191383838654e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8645,
+    "step": 1729
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9065403938293457,
+    "learning_rate": 1.3800000000000002e-07,
+    "num_tokens": 1180670.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5900000333786011,
+    "rewards/environment_reward_verifier/std": 0.29698485136032104,
+    "reward": 0.5900000333786011,
+    "reward_std": 0.29698485136032104,
+    "kl": 8.664838969707489e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.865,
+    "step": 1730
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009610215201973915,
+    "learning_rate": 1.375e-07,
+    "num_tokens": 1181036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.251021891832352e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8655,
+    "step": 1731
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009383897413499653,
+    "learning_rate": 1.37e-07,
+    "num_tokens": 1181932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6188790798187256e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.866,
+    "step": 1732
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013004555366933346,
+    "learning_rate": 1.365e-07,
+    "num_tokens": 1182828.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.170105189085007e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8665,
+    "step": 1733
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008560972637496889,
+    "learning_rate": 1.36e-07,
+    "num_tokens": 1183194.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.3237429559230804e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.867,
+    "step": 1734
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000858226849231869,
+    "learning_rate": 1.3550000000000002e-07,
+    "num_tokens": 1183560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.406591713428497e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8675,
+    "step": 1735
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009745972929522395,
+    "learning_rate": 1.35e-07,
+    "num_tokens": 1183926.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2455118596553802e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.868,
+    "step": 1736
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001205791486427188,
+    "learning_rate": 1.345e-07,
+    "num_tokens": 1184292.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.4463202357292175e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8685,
+    "step": 1737
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000825030030682683,
+    "learning_rate": 1.34e-07,
+    "num_tokens": 1185188.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.240443766117096e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.869,
+    "step": 1738
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009022785816341639,
+    "learning_rate": 1.335e-07,
+    "num_tokens": 1185554.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7677975594997406e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8695,
+    "step": 1739
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007139133522287011,
+    "learning_rate": 1.33e-07,
+    "num_tokens": 1185920.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8228387236595154e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.87,
+    "step": 1740
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6013137698173523,
+    "learning_rate": 1.325e-07,
+    "num_tokens": 1186816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.251821130514145e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8705,
+    "step": 1741
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.030862808227539,
+    "learning_rate": 1.32e-07,
+    "num_tokens": 1187712.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00021289847791194916,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.871,
+    "step": 1742
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.402322381734848,
+    "learning_rate": 1.315e-07,
+    "num_tokens": 1188608.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 1.122988760471344e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8715,
+    "step": 1743
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8741965293884277,
+    "learning_rate": 1.31e-07,
+    "num_tokens": 1189504.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7860000133514404,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7860000133514404,
+    "reward_std": 0.04808327555656433,
+    "kl": 6.223050877451897e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.872,
+    "step": 1744
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013798903673887253,
+    "learning_rate": 1.305e-07,
+    "num_tokens": 1189870.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.7256238758563995e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8725,
+    "step": 1745
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009432470542378724,
+    "learning_rate": 1.3e-07,
+    "num_tokens": 1190236.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.60291451215744e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.873,
+    "step": 1746
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011539016850292683,
+    "learning_rate": 1.295e-07,
+    "num_tokens": 1190602.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.1274895668029785e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8735,
+    "step": 1747
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001130102900788188,
+    "learning_rate": 1.29e-07,
+    "num_tokens": 1190968.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.297176539897919e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.874,
+    "step": 1748
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9825541377067566,
+    "learning_rate": 1.285e-07,
+    "num_tokens": 1191864.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 0.00011297408491373062,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8745,
+    "step": 1749
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009724145638756454,
+    "learning_rate": 1.28e-07,
+    "num_tokens": 1192230.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.585498780012131e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.875,
+    "step": 1750
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.744745135307312,
+    "learning_rate": 1.275e-07,
+    "num_tokens": 1193126.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8314999938011169,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8314999938011169,
+    "reward_std": 0.016263457015156746,
+    "kl": 4.145503044128418e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8755,
+    "step": 1751
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012472629314288497,
+    "learning_rate": 1.2699999999999999e-07,
+    "num_tokens": 1194022.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.692748188972473e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.876,
+    "step": 1752
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012303896946832538,
+    "learning_rate": 1.265e-07,
+    "num_tokens": 1194918.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.751832991838455e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8765,
+    "step": 1753
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0018947335192933679,
+    "learning_rate": 1.26e-07,
+    "num_tokens": 1195814.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 0.00010034628212451935,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.877,
+    "step": 1754
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010893162107095122,
+    "learning_rate": 1.255e-07,
+    "num_tokens": 1196180.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.170819789171219e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8775,
+    "step": 1755
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9734063148498535,
+    "learning_rate": 1.25e-07,
+    "num_tokens": 1197076.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00011194124817848206,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.878,
+    "step": 1756
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008023467962630093,
+    "learning_rate": 1.2449999999999998e-07,
+    "num_tokens": 1197972.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 5.610659718513489e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8785,
+    "step": 1757
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008229869999922812,
+    "learning_rate": 1.24e-07,
+    "num_tokens": 1198338.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.3774802684783936e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.879,
+    "step": 1758
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7385565638542175,
+    "learning_rate": 1.235e-07,
+    "num_tokens": 1199234.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 5.881208926439285e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8795,
+    "step": 1759
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003982287831604481,
+    "learning_rate": 1.23e-07,
+    "num_tokens": 1199600.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.9475190937519073e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.88,
+    "step": 1760
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010875341249629855,
+    "learning_rate": 1.225e-07,
+    "num_tokens": 1199966.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.367716610431671e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8805,
+    "step": 1761
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.948522686958313,
+    "learning_rate": 1.2199999999999998e-07,
+    "num_tokens": 1200862.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 4.6215951442718506e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.881,
+    "step": 1762
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7658970355987549,
+    "learning_rate": 1.215e-07,
+    "num_tokens": 1201758.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.03111271932721138,
+    "reward": 0.828000009059906,
+    "reward_std": 0.03111271932721138,
+    "kl": 4.916219040751457e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8815,
+    "step": 1763
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008914874633774161,
+    "learning_rate": 1.2099999999999998e-07,
+    "num_tokens": 1202654.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.2026710212230682e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.882,
+    "step": 1764
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5070701837539673,
+    "learning_rate": 1.205e-07,
+    "num_tokens": 1203550.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 7.315631955862045e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8825,
+    "step": 1765
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008635977865196764,
+    "learning_rate": 1.2e-07,
+    "num_tokens": 1203916.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9083341360092163e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.883,
+    "step": 1766
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.9672502279281616,
+    "learning_rate": 1.1949999999999998e-07,
+    "num_tokens": 1204812.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8209999799728394,
+    "rewards/environment_reward_verifier/std": 0.0014142375439405441,
+    "reward": 0.8209999799728394,
+    "reward_std": 0.0014142375439405441,
+    "kl": 7.252860814332962e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8835,
+    "step": 1767
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015731449238955975,
+    "learning_rate": 1.19e-07,
+    "num_tokens": 1205178.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.626065492630005e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.884,
+    "step": 1768
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006920692976564169,
+    "learning_rate": 1.1849999999999998e-07,
+    "num_tokens": 1206074.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 0.00015255529433488846,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8845,
+    "step": 1769
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6253349781036377,
+    "learning_rate": 1.1799999999999998e-07,
+    "num_tokens": 1206970.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 9.524449706077576e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.885,
+    "step": 1770
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009710108279250562,
+    "learning_rate": 1.1749999999999999e-07,
+    "num_tokens": 1207336.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.65767627954483e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8855,
+    "step": 1771
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021219495683908463,
+    "learning_rate": 1.17e-07,
+    "num_tokens": 1208232.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 5.154218524694443e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.886,
+    "step": 1772
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8564634919166565,
+    "learning_rate": 1.165e-07,
+    "num_tokens": 1209128.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8289999961853027,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8289999961853027,
+    "reward_std": 0.0014141954015940428,
+    "kl": 5.968846380710602e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8865,
+    "step": 1773
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014013515319675207,
+    "learning_rate": 1.16e-07,
+    "num_tokens": 1209494.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.6672536730766296e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.887,
+    "step": 1774
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010544674005359411,
+    "learning_rate": 1.155e-07,
+    "num_tokens": 1209860.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.4714117646217346e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8875,
+    "step": 1775
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015696323243901134,
+    "learning_rate": 1.15e-07,
+    "num_tokens": 1210226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.527772009372711e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.888,
+    "step": 1776
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011540880659595132,
+    "learning_rate": 1.145e-07,
+    "num_tokens": 1210592.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.215724766254425e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8885,
+    "step": 1777
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.7192362546920776,
+    "learning_rate": 1.14e-07,
+    "num_tokens": 1211488.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 0.0004497366026043892,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.889,
+    "step": 1778
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7114416360855103,
+    "learning_rate": 1.135e-07,
+    "num_tokens": 1212384.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 4.327204078435898e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8895,
+    "step": 1779
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0030834779608994722,
+    "learning_rate": 1.1299999999999999e-07,
+    "num_tokens": 1213280.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.382999986410141,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.382999986410141,
+    "reward_std": 0.0,
+    "kl": 3.078300505876541e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.89,
+    "step": 1780
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007834673160687089,
+    "learning_rate": 1.125e-07,
+    "num_tokens": 1214176.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.3746473491191864e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8905,
+    "step": 1781
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013525994727388024,
+    "learning_rate": 1.12e-07,
+    "num_tokens": 1214542.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.968086093664169e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.891,
+    "step": 1782
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007439209730364382,
+    "learning_rate": 1.115e-07,
+    "num_tokens": 1214908.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.4460256099700928e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8915,
+    "step": 1783
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005045488942414522,
+    "learning_rate": 1.11e-07,
+    "num_tokens": 1215274.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.132945418357849e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.892,
+    "step": 1784
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.009108408354222775,
+    "learning_rate": 1.1049999999999999e-07,
+    "num_tokens": 1216170.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8429999947547913,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8429999947547913,
+    "reward_std": 0.0,
+    "kl": 0.00012882612645626068,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8925,
+    "step": 1785
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005773335578851402,
+    "learning_rate": 1.0999999999999999e-07,
+    "num_tokens": 1216536.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.445746213197708e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.893,
+    "step": 1786
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007551417802460492,
+    "learning_rate": 1.095e-07,
+    "num_tokens": 1216902.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.5650875866413116e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8935,
+    "step": 1787
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7837104797363281,
+    "learning_rate": 1.09e-07,
+    "num_tokens": 1217798.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 3.842916339635849e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.894,
+    "step": 1788
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007525270921178162,
+    "learning_rate": 1.085e-07,
+    "num_tokens": 1218164.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.5322271287441254e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8945,
+    "step": 1789
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013598490040749311,
+    "learning_rate": 1.0799999999999999e-07,
+    "num_tokens": 1219060.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.739143282175064e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.895,
+    "step": 1790
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00262662535533309,
+    "learning_rate": 1.0749999999999999e-07,
+    "num_tokens": 1219956.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 0.00010076910257339478,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8955,
+    "step": 1791
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013126698322594166,
+    "learning_rate": 1.0699999999999999e-07,
+    "num_tokens": 1220322.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.7869980335235596e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.896,
+    "step": 1792
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001081117196008563,
+    "learning_rate": 1.065e-07,
+    "num_tokens": 1221218.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8569999933242798,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8569999933242798,
+    "reward_std": 0.0,
+    "kl": 2.1208077669143677e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8965,
+    "step": 1793
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000714861205779016,
+    "learning_rate": 1.06e-07,
+    "num_tokens": 1221584.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.1541491150856018e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.897,
+    "step": 1794
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7797353267669678,
+    "learning_rate": 1.0549999999999999e-07,
+    "num_tokens": 1222480.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 6.227241829037666e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8975,
+    "step": 1795
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013363354373723269,
+    "learning_rate": 1.0499999999999999e-07,
+    "num_tokens": 1222846.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.7909095883369446e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.898,
+    "step": 1796
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006508568301796913,
+    "learning_rate": 1.0449999999999999e-07,
+    "num_tokens": 1223212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.324029088020325e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8985,
+    "step": 1797
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008671290124766529,
+    "learning_rate": 1.0399999999999999e-07,
+    "num_tokens": 1223578.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7660280466079712e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.899,
+    "step": 1798
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7294493913650513,
+    "learning_rate": 1.035e-07,
+    "num_tokens": 1224474.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 0.0001232502982020378,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8995,
+    "step": 1799
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6453281044960022,
+    "learning_rate": 1.03e-07,
+    "num_tokens": 1225370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 5.937553942203522e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9,
+    "step": 1800
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010641550179570913,
+    "learning_rate": 1.0249999999999998e-07,
+    "num_tokens": 1225736.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.911050200462341e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9005,
+    "step": 1801
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8502619862556458,
+    "learning_rate": 1.0199999999999999e-07,
+    "num_tokens": 1226632.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5744999647140503,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5744999647140503,
+    "reward_std": 0.27082186937332153,
+    "kl": 7.08606094121933e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.901,
+    "step": 1802
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008172534871846437,
+    "learning_rate": 1.015e-07,
+    "num_tokens": 1226998.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.078486770391464e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9015,
+    "step": 1803
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015257395571097732,
+    "learning_rate": 1.01e-07,
+    "num_tokens": 1227894.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.626507431268692e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.902,
+    "step": 1804
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9941185712814331,
+    "learning_rate": 1.005e-07,
+    "num_tokens": 1228790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.308430314064026e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9025,
+    "step": 1805
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8335599303245544,
+    "learning_rate": 1e-07,
+    "num_tokens": 1229686.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 4.629790782928467e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.903,
+    "step": 1806
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008063720306381583,
+    "learning_rate": 9.95e-08,
+    "num_tokens": 1230582.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.995094448328018e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9035,
+    "step": 1807
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0029422007501125336,
+    "learning_rate": 9.9e-08,
+    "num_tokens": 1230948.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.519561141729355e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.904,
+    "step": 1808
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010091759031638503,
+    "learning_rate": 9.85e-08,
+    "num_tokens": 1231314.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.390440881252289e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9045,
+    "step": 1809
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6486821174621582,
+    "learning_rate": 9.8e-08,
+    "num_tokens": 1232210.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 4.920735955238342e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.905,
+    "step": 1810
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007820340106263757,
+    "learning_rate": 9.749999999999999e-08,
+    "num_tokens": 1232576.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.247987478971481e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9055,
+    "step": 1811
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016294894739985466,
+    "learning_rate": 9.7e-08,
+    "num_tokens": 1232942.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.51929697394371e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.906,
+    "step": 1812
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9986032843589783,
+    "learning_rate": 9.65e-08,
+    "num_tokens": 1233838.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 9.219348430633545e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9065,
+    "step": 1813
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.9711169004440308,
+    "learning_rate": 9.6e-08,
+    "num_tokens": 1234734.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 0.00017576105892658234,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.907,
+    "step": 1814
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6360597014427185,
+    "learning_rate": 9.55e-08,
+    "num_tokens": 1235630.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 7.921271026134491e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9075,
+    "step": 1815
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6892108917236328,
+    "learning_rate": 9.499999999999999e-08,
+    "num_tokens": 1236526.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7860000133514404,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7860000133514404,
+    "reward_std": 0.04808327555656433,
+    "kl": 6.624776870012283e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.908,
+    "step": 1816
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017434032633900642,
+    "learning_rate": 9.449999999999999e-08,
+    "num_tokens": 1236892.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.3535994589328766e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9085,
+    "step": 1817
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0027986906934529543,
+    "learning_rate": 9.4e-08,
+    "num_tokens": 1237788.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8230000138282776,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8230000138282776,
+    "reward_std": 0.0,
+    "kl": 5.122460424900055e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.909,
+    "step": 1818
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008996524848043919,
+    "learning_rate": 9.35e-08,
+    "num_tokens": 1238154.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.3515505492687225e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9095,
+    "step": 1819
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.007405710872262716,
+    "learning_rate": 9.3e-08,
+    "num_tokens": 1239050.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.00010426249355077744,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.91,
+    "step": 1820
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013169284211471677,
+    "learning_rate": 9.25e-08,
+    "num_tokens": 1239416.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.415547639131546e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9105,
+    "step": 1821
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8002967834472656,
+    "learning_rate": 9.199999999999999e-08,
+    "num_tokens": 1240312.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 8.742976933717728e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.911,
+    "step": 1822
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8729252219200134,
+    "learning_rate": 9.149999999999999e-08,
+    "num_tokens": 1241208.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 7.083360105752945e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9115,
+    "step": 1823
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00195197737775743,
+    "learning_rate": 9.1e-08,
+    "num_tokens": 1241574.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.8969178199768066e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.912,
+    "step": 1824
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015553674893453717,
+    "learning_rate": 9.05e-08,
+    "num_tokens": 1241940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.8057717978954315e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9125,
+    "step": 1825
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008191480301320553,
+    "learning_rate": 9e-08,
+    "num_tokens": 1242306.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3916363716125488e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.913,
+    "step": 1826
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2573457956314087,
+    "learning_rate": 8.949999999999999e-08,
+    "num_tokens": 1243202.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 6.231758743524551e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9135,
+    "step": 1827
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012659374624490738,
+    "learning_rate": 8.899999999999999e-08,
+    "num_tokens": 1243568.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.623776137828827e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.914,
+    "step": 1828
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2384027242660522,
+    "learning_rate": 8.849999999999999e-08,
+    "num_tokens": 1244464.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8179999589920044,
+    "rewards/environment_reward_verifier/std": 0.01697055622935295,
+    "reward": 0.8179999589920044,
+    "reward_std": 0.01697055622935295,
+    "kl": 4.41037118434906e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9145,
+    "step": 1829
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020049409940838814,
+    "learning_rate": 8.8e-08,
+    "num_tokens": 1245360.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 9.782146662473679e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.915,
+    "step": 1830
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007200397667475045,
+    "learning_rate": 8.75e-08,
+    "num_tokens": 1245726.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8675422072410583e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9155,
+    "step": 1831
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017381110228598118,
+    "learning_rate": 8.699999999999998e-08,
+    "num_tokens": 1246092.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.093511521816254e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.916,
+    "step": 1832
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.057037509977817535,
+    "learning_rate": 8.649999999999999e-08,
+    "num_tokens": 1246988.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.0009416723623871803,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9165,
+    "step": 1833
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002384243067353964,
+    "learning_rate": 8.599999999999999e-08,
+    "num_tokens": 1247354.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.830638110637665e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.917,
+    "step": 1834
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001272529480047524,
+    "learning_rate": 8.55e-08,
+    "num_tokens": 1247720.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.187637776136398e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9175,
+    "step": 1835
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014147718902677298,
+    "learning_rate": 8.500000000000001e-08,
+    "num_tokens": 1248086.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.632266402244568e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.918,
+    "step": 1836
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008189683430828154,
+    "learning_rate": 8.45e-08,
+    "num_tokens": 1248452.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8110109269618988e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9185,
+    "step": 1837
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006520377937704325,
+    "learning_rate": 8.4e-08,
+    "num_tokens": 1249348.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.2736919820308685e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.919,
+    "step": 1838
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005913342465646565,
+    "learning_rate": 8.35e-08,
+    "num_tokens": 1250244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8070993721485138e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9195,
+    "step": 1839
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006336219143122435,
+    "learning_rate": 8.3e-08,
+    "num_tokens": 1250610.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.033239722251892e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.92,
+    "step": 1840
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.074285626411438,
+    "learning_rate": 8.25e-08,
+    "num_tokens": 1251506.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8105000257492065,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8105000257492065,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.837980329990387e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9205,
+    "step": 1841
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001576212584041059,
+    "learning_rate": 8.2e-08,
+    "num_tokens": 1251872.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.595518112182617e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.921,
+    "step": 1842
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0022003604099154472,
+    "learning_rate": 8.15e-08,
+    "num_tokens": 1252238.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.256384611129761e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9215,
+    "step": 1843
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9301549196243286,
+    "learning_rate": 8.1e-08,
+    "num_tokens": 1253134.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 5.9351325035095215e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.922,
+    "step": 1844
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.012174203991889954,
+    "learning_rate": 8.05e-08,
+    "num_tokens": 1254030.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 3.597419708967209e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9225,
+    "step": 1845
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7200810313224792,
+    "learning_rate": 8e-08,
+    "num_tokens": 1254926.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.89833003282547e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.923,
+    "step": 1846
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003318098606541753,
+    "learning_rate": 7.95e-08,
+    "num_tokens": 1255292.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9474496841430664e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9235,
+    "step": 1847
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002200285904109478,
+    "learning_rate": 7.899999999999999e-08,
+    "num_tokens": 1255658.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.21903857588768e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.924,
+    "step": 1848
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008765140664763749,
+    "learning_rate": 7.85e-08,
+    "num_tokens": 1256024.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.9000995457172394e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9245,
+    "step": 1849
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8187151551246643,
+    "learning_rate": 7.8e-08,
+    "num_tokens": 1256920.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 7.206853479146957e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.925,
+    "step": 1850
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5915341973304749,
+    "learning_rate": 7.75e-08,
+    "num_tokens": 1257816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 3.796163946390152e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9255,
+    "step": 1851
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7493903040885925,
+    "learning_rate": 7.7e-08,
+    "num_tokens": 1258712.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 3.951508551836014e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.926,
+    "step": 1852
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008260611211881042,
+    "learning_rate": 7.649999999999999e-08,
+    "num_tokens": 1259608.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 4.204269498586655e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9265,
+    "step": 1853
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001288191182538867,
+    "learning_rate": 7.599999999999999e-08,
+    "num_tokens": 1259974.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.305131733417511e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.927,
+    "step": 1854
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6523440480232239,
+    "learning_rate": 7.55e-08,
+    "num_tokens": 1260870.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.2289343178272247e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9275,
+    "step": 1855
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025584432296454906,
+    "learning_rate": 7.5e-08,
+    "num_tokens": 1261766.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00012008380144834518,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.928,
+    "step": 1856
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008006390416994691,
+    "learning_rate": 7.45e-08,
+    "num_tokens": 1262662.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.365908145904541e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9285,
+    "step": 1857
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005818059435114264,
+    "learning_rate": 7.399999999999999e-08,
+    "num_tokens": 1263028.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.6983598470687866e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.929,
+    "step": 1858
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016558809438720345,
+    "learning_rate": 7.349999999999999e-08,
+    "num_tokens": 1263394.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.0668994188308716e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9295,
+    "step": 1859
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012347043957561255,
+    "learning_rate": 7.299999999999999e-08,
+    "num_tokens": 1263760.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.45969232916832e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.93,
+    "step": 1860
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007524865795858204,
+    "learning_rate": 7.25e-08,
+    "num_tokens": 1264126.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.5850720703601837e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9305,
+    "step": 1861
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6033291816711426,
+    "learning_rate": 7.2e-08,
+    "num_tokens": 1265022.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 5.55114820599556e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.931,
+    "step": 1862
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0034811405930668116,
+    "learning_rate": 7.149999999999999e-08,
+    "num_tokens": 1265918.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 0.00012871157377958298,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9315,
+    "step": 1863
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007591163157485425,
+    "learning_rate": 7.099999999999999e-08,
+    "num_tokens": 1266284.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.487244248390198e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.932,
+    "step": 1864
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011568117188289762,
+    "learning_rate": 7.049999999999999e-08,
+    "num_tokens": 1266650.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.824755549430847e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9325,
+    "step": 1865
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7718785405158997,
+    "learning_rate": 7e-08,
+    "num_tokens": 1267546.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.01555635966360569,
+    "kl": 2.6744790375232697e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.933,
+    "step": 1866
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7953295111656189,
+    "learning_rate": 6.950000000000001e-08,
+    "num_tokens": 1268442.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 5.66607341170311e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9335,
+    "step": 1867
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007461290806531906,
+    "learning_rate": 6.900000000000001e-08,
+    "num_tokens": 1268808.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.156198024749756e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.934,
+    "step": 1868
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014013278996571898,
+    "learning_rate": 6.85e-08,
+    "num_tokens": 1269704.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 5.7250261306762695e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9345,
+    "step": 1869
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008100003469735384,
+    "learning_rate": 6.8e-08,
+    "num_tokens": 1270070.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2807158529758453e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.935,
+    "step": 1870
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006804454606026411,
+    "learning_rate": 6.75e-08,
+    "num_tokens": 1270436.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.0500272512435913e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9355,
+    "step": 1871
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013419273309409618,
+    "learning_rate": 6.7e-08,
+    "num_tokens": 1271332.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 7.026456296443939e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.936,
+    "step": 1872
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0018655994208529592,
+    "learning_rate": 6.65e-08,
+    "num_tokens": 1272228.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.878000020980835,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.878000020980835,
+    "reward_std": 0.0,
+    "kl": 8.473079651594162e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9365,
+    "step": 1873
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008008715230971575,
+    "learning_rate": 6.6e-08,
+    "num_tokens": 1273124.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.729015588760376e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.937,
+    "step": 1874
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9609123468399048,
+    "learning_rate": 6.55e-08,
+    "num_tokens": 1274020.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.089848905801773e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9375,
+    "step": 1875
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.8508756160736084,
+    "learning_rate": 6.5e-08,
+    "num_tokens": 1274916.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 8.919928222894669e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.938,
+    "step": 1876
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001092518912628293,
+    "learning_rate": 6.45e-08,
+    "num_tokens": 1275282.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.985315561294556e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9385,
+    "step": 1877
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012667548144236207,
+    "learning_rate": 6.4e-08,
+    "num_tokens": 1276178.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 4.560593515634537e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.939,
+    "step": 1878
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012132265837863088,
+    "learning_rate": 6.349999999999999e-08,
+    "num_tokens": 1277074.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 6.347894668579102e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9395,
+    "step": 1879
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6250314712524414,
+    "learning_rate": 6.3e-08,
+    "num_tokens": 1277970.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 4.879012703895569e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.94,
+    "step": 1880
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009681034134700894,
+    "learning_rate": 6.25e-08,
+    "num_tokens": 1278336.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.729907959699631e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9405,
+    "step": 1881
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011230476666241884,
+    "learning_rate": 6.2e-08,
+    "num_tokens": 1278702.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.889536648988724e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.941,
+    "step": 1882
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014930960023775697,
+    "learning_rate": 6.15e-08,
+    "num_tokens": 1279598.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 4.818663001060486e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9415,
+    "step": 1883
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7510735392570496,
+    "learning_rate": 6.099999999999999e-08,
+    "num_tokens": 1280494.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.274491220712662e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.942,
+    "step": 1884
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020160400308668613,
+    "learning_rate": 6.049999999999999e-08,
+    "num_tokens": 1280860.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4088658392429352e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9425,
+    "step": 1885
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010629004100337625,
+    "learning_rate": 6e-08,
+    "num_tokens": 1281756.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8569999933242798,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8569999933242798,
+    "reward_std": 0.0,
+    "kl": 5.9262849390506744e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.943,
+    "step": 1886
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004243387375026941,
+    "learning_rate": 5.95e-08,
+    "num_tokens": 1282652.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00011902675032615662,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9435,
+    "step": 1887
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.774765729904175,
+    "learning_rate": 5.899999999999999e-08,
+    "num_tokens": 1283548.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 0.00014576036483049393,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.944,
+    "step": 1888
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6654500961303711,
+    "learning_rate": 5.85e-08,
+    "num_tokens": 1284444.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.045254841446876526,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.045254841446876526,
+    "kl": 6.612855941057205e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9445,
+    "step": 1889
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8191606402397156,
+    "learning_rate": 5.8e-08,
+    "num_tokens": 1285340.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8125,
+    "rewards/environment_reward_verifier/std": 0.01060659158974886,
+    "reward": 0.8125,
+    "reward_std": 0.01060659158974886,
+    "kl": 3.25273722410202e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.945,
+    "step": 1890
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7108575701713562,
+    "learning_rate": 5.75e-08,
+    "num_tokens": 1286236.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8209999799728394,
+    "rewards/environment_reward_verifier/std": 0.0014142375439405441,
+    "reward": 0.8209999799728394,
+    "reward_std": 0.0014142375439405441,
+    "kl": 7.600896060466766e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9455,
+    "step": 1891
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004424000799190253,
+    "learning_rate": 5.7e-08,
+    "num_tokens": 1287132.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.8070993721485138e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.946,
+    "step": 1892
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9523747563362122,
+    "learning_rate": 5.6499999999999996e-08,
+    "num_tokens": 1288028.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00021653249859809875,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9465,
+    "step": 1893
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.4174977540969849,
+    "learning_rate": 5.6e-08,
+    "num_tokens": 1288924.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8114999532699585,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8114999532699585,
+    "reward_std": 0.06434673070907593,
+    "kl": 4.808790981769562e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.947,
+    "step": 1894
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9478350281715393,
+    "learning_rate": 5.55e-08,
+    "num_tokens": 1289820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5985000133514404,
+    "rewards/environment_reward_verifier/std": 0.30900564789772034,
+    "reward": 0.5985000133514404,
+    "reward_std": 0.30900564789772034,
+    "kl": 8.906051516532898e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9475,
+    "step": 1895
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007437904132530093,
+    "learning_rate": 5.4999999999999996e-08,
+    "num_tokens": 1290716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8230000138282776,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8230000138282776,
+    "reward_std": 0.0,
+    "kl": 4.428718239068985e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.948,
+    "step": 1896
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7563509941101074,
+    "learning_rate": 5.45e-08,
+    "num_tokens": 1291612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 4.9046240746974945e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9485,
+    "step": 1897
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8800461888313293,
+    "learning_rate": 5.3999999999999994e-08,
+    "num_tokens": 1292508.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8114999532699585,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8114999532699585,
+    "reward_std": 0.06434673070907593,
+    "kl": 8.416082710027695e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.949,
+    "step": 1898
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013233114732429385,
+    "learning_rate": 5.3499999999999996e-08,
+    "num_tokens": 1293404.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.27078115940094e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9495,
+    "step": 1899
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006829975172877312,
+    "learning_rate": 5.3e-08,
+    "num_tokens": 1294300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.519522190093994e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.95,
+    "step": 1900
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8179243206977844,
+    "learning_rate": 5.2499999999999994e-08,
+    "num_tokens": 1295196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 6.653927266597748e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9505,
+    "step": 1901
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00887332670390606,
+    "learning_rate": 5.1999999999999996e-08,
+    "num_tokens": 1296092.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 0.00018446799367666245,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.951,
+    "step": 1902
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7098538279533386,
+    "learning_rate": 5.15e-08,
+    "num_tokens": 1296988.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.0236860513687134e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9515,
+    "step": 1903
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009045878541655838,
+    "learning_rate": 5.0999999999999993e-08,
+    "num_tokens": 1297354.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9223039746284485e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.952,
+    "step": 1904
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002537330612540245,
+    "learning_rate": 5.05e-08,
+    "num_tokens": 1298250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.463432848453522e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9525,
+    "step": 1905
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7880844473838806,
+    "learning_rate": 5e-08,
+    "num_tokens": 1299146.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 4.231743514537811e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.953,
+    "step": 1906
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002435741713270545,
+    "learning_rate": 4.95e-08,
+    "num_tokens": 1299512.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00010286550968885422,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9535,
+    "step": 1907
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002487839898094535,
+    "learning_rate": 4.9e-08,
+    "num_tokens": 1299878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.509875386953354e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.954,
+    "step": 1908
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6476210951805115,
+    "learning_rate": 4.85e-08,
+    "num_tokens": 1300774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8314999938011169,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8314999938011169,
+    "reward_std": 0.016263457015156746,
+    "kl": 3.3845193684101105e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9545,
+    "step": 1909
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7606059312820435,
+    "learning_rate": 4.8e-08,
+    "num_tokens": 1301670.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.0627474188804626e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.955,
+    "step": 1910
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007995399064384401,
+    "learning_rate": 4.7499999999999995e-08,
+    "num_tokens": 1302566.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5949440896511078e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9555,
+    "step": 1911
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000665718165691942,
+    "learning_rate": 4.7e-08,
+    "num_tokens": 1303462.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 4.561152309179306e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.956,
+    "step": 1912
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011164310853928328,
+    "learning_rate": 4.65e-08,
+    "num_tokens": 1303828.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.809388726949692e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9565,
+    "step": 1913
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007526192348450422,
+    "learning_rate": 4.5999999999999995e-08,
+    "num_tokens": 1304724.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 4.663970321416855e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.957,
+    "step": 1914
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7351367473602295,
+    "learning_rate": 4.55e-08,
+    "num_tokens": 1305620.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 3.9439648389816284e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9575,
+    "step": 1915
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012141538318246603,
+    "learning_rate": 4.5e-08,
+    "num_tokens": 1306516.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.472412496805191e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.958,
+    "step": 1916
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013145786942914128,
+    "learning_rate": 4.4499999999999995e-08,
+    "num_tokens": 1306882.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.9029714167118073e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9585,
+    "step": 1917
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.204422950744629,
+    "learning_rate": 4.4e-08,
+    "num_tokens": 1307778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8314999938011169,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8314999938011169,
+    "reward_std": 0.016263457015156746,
+    "kl": 7.314607501029968e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.959,
+    "step": 1918
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8346698880195618,
+    "learning_rate": 4.349999999999999e-08,
+    "num_tokens": 1308674.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8365000486373901,
+    "rewards/environment_reward_verifier/std": 0.01909189112484455,
+    "reward": 0.8365000486373901,
+    "reward_std": 0.01909189112484455,
+    "kl": 6.764009594917297e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9595,
+    "step": 1919
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5773689150810242,
+    "learning_rate": 4.2999999999999995e-08,
+    "num_tokens": 1309570.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.458334296941757e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.96,
+    "step": 1920
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.587773084640503,
+    "learning_rate": 4.2500000000000003e-08,
+    "num_tokens": 1310466.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 5.2959658205509186e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9605,
+    "step": 1921
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5310774445533752,
+    "learning_rate": 4.2e-08,
+    "num_tokens": 1311362.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 2.699345350265503e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.961,
+    "step": 1922
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8070924878120422,
+    "learning_rate": 4.15e-08,
+    "num_tokens": 1312258.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 3.958679735660553e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9615,
+    "step": 1923
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008922016131691635,
+    "learning_rate": 4.1e-08,
+    "num_tokens": 1313154.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.5449862480163574e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.962,
+    "step": 1924
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8139249682426453,
+    "learning_rate": 4.05e-08,
+    "num_tokens": 1314050.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.039597976952791214,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.039597976952791214,
+    "kl": 5.259457975625992e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9625,
+    "step": 1925
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001327203819528222,
+    "learning_rate": 4e-08,
+    "num_tokens": 1314416.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.579313099384308e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.963,
+    "step": 1926
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5970568656921387,
+    "learning_rate": 3.9499999999999996e-08,
+    "num_tokens": 1315312.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.513414412736893e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9635,
+    "step": 1927
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6172381043434143,
+    "learning_rate": 3.9e-08,
+    "num_tokens": 1316208.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 2.5690533220767975e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.964,
+    "step": 1928
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9972390532493591,
+    "learning_rate": 3.85e-08,
+    "num_tokens": 1317104.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7860000133514404,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7860000133514404,
+    "reward_std": 0.04808327555656433,
+    "kl": 9.79909673333168e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9645,
+    "step": 1929
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7970294952392578,
+    "learning_rate": 3.7999999999999996e-08,
+    "num_tokens": 1318000.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 3.156159073114395e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.965,
+    "step": 1930
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8544671535491943,
+    "learning_rate": 3.75e-08,
+    "num_tokens": 1318896.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 5.225185304880142e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9655,
+    "step": 1931
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7123236656188965,
+    "learning_rate": 3.6999999999999994e-08,
+    "num_tokens": 1319792.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6074999570846558,
+    "rewards/environment_reward_verifier/std": 0.3217335641384125,
+    "reward": 0.6074999570846558,
+    "reward_std": 0.3217335641384125,
+    "kl": 4.797615110874176e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.966,
+    "step": 1932
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008904593414627016,
+    "learning_rate": 3.6499999999999996e-08,
+    "num_tokens": 1320158.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.0052848160266876e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9665,
+    "step": 1933
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6745616793632507,
+    "learning_rate": 3.6e-08,
+    "num_tokens": 1321054.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 7.80569389462471e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.967,
+    "step": 1934
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012241753283888102,
+    "learning_rate": 3.5499999999999994e-08,
+    "num_tokens": 1321420.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9836239516735077e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9675,
+    "step": 1935
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.03447146713733673,
+    "learning_rate": 3.5e-08,
+    "num_tokens": 1322316.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.000571289099752903,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.968,
+    "step": 1936
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0031033242121338844,
+    "learning_rate": 3.4500000000000005e-08,
+    "num_tokens": 1323212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 0.00013370532542467117,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9685,
+    "step": 1937
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7509351968765259,
+    "learning_rate": 3.4e-08,
+    "num_tokens": 1324108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.3138319849967957e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.969,
+    "step": 1938
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001145522459410131,
+    "learning_rate": 3.35e-08,
+    "num_tokens": 1324474.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.9367547035217285e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9695,
+    "step": 1939
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6458748579025269,
+    "learning_rate": 3.3e-08,
+    "num_tokens": 1325370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.7299469113349915e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.97,
+    "step": 1940
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005989051423966885,
+    "learning_rate": 3.25e-08,
+    "num_tokens": 1326266.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.194715827703476e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9705,
+    "step": 1941
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0348713397979736,
+    "learning_rate": 3.2e-08,
+    "num_tokens": 1327162.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 4.017213359475136e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.971,
+    "step": 1942
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.664190948009491,
+    "learning_rate": 3.15e-08,
+    "num_tokens": 1328058.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31607675552368164,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31607675552368164,
+    "kl": 5.123857408761978e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9715,
+    "step": 1943
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9491040110588074,
+    "learning_rate": 3.1e-08,
+    "num_tokens": 1328954.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 6.263516843318939e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.972,
+    "step": 1944
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003704255912452936,
+    "learning_rate": 3.0499999999999995e-08,
+    "num_tokens": 1329850.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 8.243601769208908e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9725,
+    "step": 1945
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016652109334245324,
+    "learning_rate": 3e-08,
+    "num_tokens": 1330216.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.716791540384293e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.973,
+    "step": 1946
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7003143429756165,
+    "learning_rate": 2.9499999999999996e-08,
+    "num_tokens": 1331112.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7919999957084656,
+    "rewards/environment_reward_verifier/std": 0.0381837822496891,
+    "reward": 0.7919999957084656,
+    "reward_std": 0.0381837822496891,
+    "kl": 5.607306957244873e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9735,
+    "step": 1947
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020086613949388266,
+    "learning_rate": 2.9e-08,
+    "num_tokens": 1332008.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 9.545870125293732e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.974,
+    "step": 1948
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5554416179656982,
+    "learning_rate": 2.85e-08,
+    "num_tokens": 1332904.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.0972215831279755e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9745,
+    "step": 1949
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9953874349594116,
+    "learning_rate": 2.8e-08,
+    "num_tokens": 1333800.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 5.744118243455887e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.975,
+    "step": 1950
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001727592432871461,
+    "learning_rate": 2.7499999999999998e-08,
+    "num_tokens": 1334166.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.033651202917099e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9755,
+    "step": 1951
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.622600793838501,
+    "learning_rate": 2.6999999999999997e-08,
+    "num_tokens": 1335062.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.692321479320526e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.976,
+    "step": 1952
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006846596952527761,
+    "learning_rate": 2.65e-08,
+    "num_tokens": 1335428.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.568121999502182e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9765,
+    "step": 1953
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001127120340242982,
+    "learning_rate": 2.5999999999999998e-08,
+    "num_tokens": 1335794.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.500135451555252e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.977,
+    "step": 1954
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5068713426589966,
+    "learning_rate": 2.5499999999999997e-08,
+    "num_tokens": 1336690.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.011313731782138348,
+    "kl": 0.00010407902300357819,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9775,
+    "step": 1955
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013251726049929857,
+    "learning_rate": 2.5e-08,
+    "num_tokens": 1337056.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0050443708896637e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.978,
+    "step": 1956
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9759896993637085,
+    "learning_rate": 2.45e-08,
+    "num_tokens": 1337952.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 5.472265183925629e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9785,
+    "step": 1957
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001991751603782177,
+    "learning_rate": 2.4e-08,
+    "num_tokens": 1338318.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7233734726905823e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.979,
+    "step": 1958
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7958042025566101,
+    "learning_rate": 2.35e-08,
+    "num_tokens": 1339214.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00012979097664356232,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9795,
+    "step": 1959
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2444452047348022,
+    "learning_rate": 2.2999999999999998e-08,
+    "num_tokens": 1340110.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.004242670256644487,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.004242670256644487,
+    "kl": 6.871577352285385e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.98,
+    "step": 1960
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1009396314620972,
+    "learning_rate": 2.25e-08,
+    "num_tokens": 1341006.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.00026622507721185684,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9805,
+    "step": 1961
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1216737031936646,
+    "learning_rate": 2.2e-08,
+    "num_tokens": 1341902.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8450000286102295,
+    "rewards/environment_reward_verifier/std": 0.014142164029181004,
+    "reward": 0.8450000286102295,
+    "reward_std": 0.014142164029181004,
+    "kl": 0.0002295980229973793,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.981,
+    "step": 1962
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001057165558449924,
+    "learning_rate": 2.1499999999999997e-08,
+    "num_tokens": 1342268.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.635138273239136e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9815,
+    "step": 1963
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009397657704539597,
+    "learning_rate": 2.1e-08,
+    "num_tokens": 1343164.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 4.243478178977966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.982,
+    "step": 1964
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002872444223612547,
+    "learning_rate": 2.05e-08,
+    "num_tokens": 1343530.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.2745454013347626e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9825,
+    "step": 1965
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009532644180580974,
+    "learning_rate": 2e-08,
+    "num_tokens": 1343896.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.329066723585129e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.983,
+    "step": 1966
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001970401033759117,
+    "learning_rate": 1.95e-08,
+    "num_tokens": 1344262.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7478672564029694e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9835,
+    "step": 1967
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8466808795928955,
+    "learning_rate": 1.8999999999999998e-08,
+    "num_tokens": 1345158.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.609499990940094,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.609499990940094,
+    "reward_std": 0.32031938433647156,
+    "kl": 6.240885704755783e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.984,
+    "step": 1968
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7395403385162354,
+    "learning_rate": 1.8499999999999997e-08,
+    "num_tokens": 1346054.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7854999899864197,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7854999899864197,
+    "reward_std": 0.037476640194654465,
+    "kl": 3.7410296499729156e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9845,
+    "step": 1969
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005028001964092255,
+    "learning_rate": 1.8e-08,
+    "num_tokens": 1346420.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.665304630994797e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.985,
+    "step": 1970
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7261149883270264,
+    "learning_rate": 1.75e-08,
+    "num_tokens": 1347316.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5900000333786011,
+    "rewards/environment_reward_verifier/std": 0.29698485136032104,
+    "reward": 0.5900000333786011,
+    "reward_std": 0.29698485136032104,
+    "kl": 8.442811667919159e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9855,
+    "step": 1971
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007656632806174457,
+    "learning_rate": 1.7e-08,
+    "num_tokens": 1348212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.391185939311981e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.986,
+    "step": 1972
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2559970617294312,
+    "learning_rate": 1.65e-08,
+    "num_tokens": 1349108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8109999895095825,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8109999895095825,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.00017483532428741455,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9865,
+    "step": 1973
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007610286120325327,
+    "learning_rate": 1.6e-08,
+    "num_tokens": 1350004.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6444904506206512e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.987,
+    "step": 1974
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5096609592437744,
+    "learning_rate": 1.55e-08,
+    "num_tokens": 1350900.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 6.0974620282649994e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9875,
+    "step": 1975
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8040772080421448,
+    "learning_rate": 1.5e-08,
+    "num_tokens": 1351796.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5975000262260437,
+    "rewards/environment_reward_verifier/std": 0.3047630488872528,
+    "reward": 0.5975000262260437,
+    "reward_std": 0.3047630488872528,
+    "kl": 7.442384958267212e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.988,
+    "step": 1976
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008832589373923838,
+    "learning_rate": 1.45e-08,
+    "num_tokens": 1352162.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.8139369785785675e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9885,
+    "step": 1977
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000580662686843425,
+    "learning_rate": 1.4e-08,
+    "num_tokens": 1352528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3657456040382385e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.989,
+    "step": 1978
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015710809966549277,
+    "learning_rate": 1.3499999999999998e-08,
+    "num_tokens": 1352894.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.9046240746974945e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9895,
+    "step": 1979
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2286361455917358,
+    "learning_rate": 1.2999999999999999e-08,
+    "num_tokens": 1353790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.055154334753751755,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.055154334753751755,
+    "kl": 0.00014132726937532425,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.99,
+    "step": 1980
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000873856944963336,
+    "learning_rate": 1.25e-08,
+    "num_tokens": 1354156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.497488796710968e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9905,
+    "step": 1981
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003963265102356672,
+    "learning_rate": 1.2e-08,
+    "num_tokens": 1355052.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 0.00016738008707761765,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.991,
+    "step": 1982
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010274512460455298,
+    "learning_rate": 1.1499999999999999e-08,
+    "num_tokens": 1355948.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.77201896905899e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9915,
+    "step": 1983
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005545667372643948,
+    "learning_rate": 1.1e-08,
+    "num_tokens": 1356844.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.383960574865341e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.992,
+    "step": 1984
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001100558671168983,
+    "learning_rate": 1.05e-08,
+    "num_tokens": 1357210.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.336796700954437e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9925,
+    "step": 1985
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7508660554885864,
+    "learning_rate": 1e-08,
+    "num_tokens": 1358106.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 7.212162017822266e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.993,
+    "step": 1986
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8998424410820007,
+    "learning_rate": 9.499999999999999e-09,
+    "num_tokens": 1359002.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 3.0959490686655045e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9935,
+    "step": 1987
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005708038806915283,
+    "learning_rate": 9e-09,
+    "num_tokens": 1359368.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.1286308765411377e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.994,
+    "step": 1988
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1188461780548096,
+    "learning_rate": 8.5e-09,
+    "num_tokens": 1360264.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 0.00014527235180139542,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9945,
+    "step": 1989
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5586024522781372,
+    "learning_rate": 8e-09,
+    "num_tokens": 1361160.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.770552575588226e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.995,
+    "step": 1990
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007088059210218489,
+    "learning_rate": 7.5e-09,
+    "num_tokens": 1361526.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6285648345947266e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9955,
+    "step": 1991
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00330960750579834,
+    "learning_rate": 7e-09,
+    "num_tokens": 1362422.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.0001575574278831482,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.996,
+    "step": 1992
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.916315495967865,
+    "learning_rate": 6.4999999999999995e-09,
+    "num_tokens": 1363318.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8109999895095825,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8109999895095825,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.00013699568808078766,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9965,
+    "step": 1993
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6125226020812988,
+    "learning_rate": 6e-09,
+    "num_tokens": 1364214.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 5.8222562074661255e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.997,
+    "step": 1994
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001430765725672245,
+    "learning_rate": 5.5e-09,
+    "num_tokens": 1364580.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9777566194534302e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9975,
+    "step": 1995
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009554658317938447,
+    "learning_rate": 5e-09,
+    "num_tokens": 1365476.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 5.196593701839447e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.998,
+    "step": 1996
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.707953155040741,
+    "learning_rate": 4.5e-09,
+    "num_tokens": 1366372.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.2736919820308685e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9985,
+    "step": 1997
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008880810928530991,
+    "learning_rate": 4e-09,
+    "num_tokens": 1366738.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.86582687497139e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.999,
+    "step": 1998
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015981695614755154,
+    "learning_rate": 3.5e-09,
+    "num_tokens": 1367634.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 5.8078207075595856e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9995,
+    "step": 1999
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007903846562840044,
+    "learning_rate": 3e-09,
+    "num_tokens": 1368000.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.558676689863205e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 1.0,
+    "step": 2000
+  },
+  {
+    "train_runtime": 6873.9375,
+    "train_samples_per_second": 0.291,
+    "train_steps_per_second": 0.291,
+    "total_flos": 0.0,
+    "train_loss": 2.665005830824185e-06,
+    "epoch": 1.0,
+    "step": 2000
+  }
+]
\ No newline at end of file
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl
new file mode 100644
index 0000000000000000000000000000000000000000..f911cbfc7e979e3a02e1ee0b1bc61ff77101b9fb
--- /dev/null
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl
@@ -0,0 +1,4000 @@
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01542", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01542", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01486", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01486", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8252", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8252", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01959", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01959", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8410", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8410", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8190", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8190", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01488", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01488", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01520", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01520", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8102", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8102", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8836", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8836", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8178", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8178", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01716", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01716", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9054", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9054", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01820", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01820", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9199", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9199", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8322", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8322", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8051", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8051", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8690", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8690", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01479", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01479", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9107", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9107", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8789", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8789", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8885", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8885", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01777", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01777", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9048", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9048", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8779", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8779", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01213", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01213", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01567", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01567", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8561", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8561", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8595", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8595", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01380", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01380", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8082", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8082", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9059", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9059", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01803", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01803", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01545", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01545", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9163", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9163", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8174", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8174", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01267", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01267", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01396", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01396", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01506", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01506", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8972", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8972", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8586", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8586", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9169", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9169", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9031", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9031", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01407", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01407", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01223", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01223", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8733", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8733", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8931", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8931", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8735", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8735", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9069", "generated_candidate_id": "cand_11", "selected_candidate_id": "cand_11", "legal": true, "reward": 0.88, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.91, "primary_safety_legality": 0.977, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.863}, "primary_reward_channels": {"safety_legality": 0.977, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9069", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01364", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01364", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8470", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8470", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8633", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8633", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9006", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9006", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01256", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01256", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01602", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01602", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01399", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01399", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8759", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8759", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8388", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8388", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01376", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01376", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01586", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01586", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01906", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01906", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8201", "generated_candidate_id": "cand_10", "selected_candidate_id": "cand_10", "legal": true, "reward": 0.818, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.9, "primary_safety_legality": 0.974, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.785}, "primary_reward_channels": {"safety_legality": 0.974, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8201", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8208", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8208", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8638", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8638", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8694", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8694", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8421", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8421", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01219", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01219", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01885", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01885", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01299", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01299", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8974", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8974", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9127", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.805, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.769}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9127", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01229", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01229", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8160", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8160", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8404", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8404", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8414", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8414", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8409", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8409", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8555", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8555", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01455", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01455", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01798", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01798", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01972", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01972", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01814", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01814", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9022", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9022", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8172", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8172", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8572", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8572", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8890", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8890", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01445", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01445", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01701", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01701", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01571", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01571", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8307", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8307", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8297", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8297", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01257", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01257", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8679", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8679", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8689", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8689", "generated_candidate_id": "cand_10", "selected_candidate_id": "cand_10", "legal": true, "reward": 0.818, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.9, "primary_safety_legality": 0.974, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.785}, "primary_reward_channels": {"safety_legality": 0.974, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01902", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01902", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01433", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01433", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8640", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8640", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8569", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8569", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01432", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01432", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01609", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01609", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01517", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01517", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01770", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01770", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8149", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8149", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8065", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8065", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8321", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8321", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8825", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8825", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9111", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9111", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8649", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8649", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01476", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01476", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8437", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8437", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8908", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.807, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.771}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8908", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8215", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8215", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01551", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01551", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8105", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8105", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8935", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.796, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.757}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8935", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01330", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01330", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8939", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8939", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01900", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01900", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01847", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01847", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01739", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01739", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8227", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8227", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8959", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8959", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8241", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8241", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9123", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9123", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8313", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8313", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8164", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8164", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8329", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8329", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01623", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01623", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8713", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8713", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01451", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01451", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8655", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8655", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8577", "generated_candidate_id": "cand_11", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8577", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01825", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01825", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01312", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01312", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01431", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01431", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01416", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01416", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8973", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8973", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8384", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8384", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8027", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8027", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01620", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01620", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8875", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8875", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9159", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9159", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8461", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8461", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01481", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01481", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01804", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01804", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01511", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01511", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01382", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01382", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01894", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01894", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01860", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01860", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01276", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01276", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8294", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.788, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.748}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8294", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.811, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.776}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01822", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01822", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01599", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01599", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8392", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8392", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.805, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.769}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8303", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8303", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01682", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01682", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01437", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01437", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8710", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.382, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.692, "total_reward": 0.465}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.692}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8710", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8298", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8298", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8818", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8818", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8764", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8764", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8966", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8966", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8418", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8418", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01901", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01901", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01400", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01400", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8165", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8165", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8468", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8468", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01309", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01309", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8904", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8904", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8998", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8998", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9087", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9087", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01395", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01395", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01513", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01513", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8454", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8454", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01744", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01744", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8801", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8801", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8136", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8136", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8490", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8490", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8074", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8074", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01280", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01280", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8579", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8579", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8057", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8057", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01899", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01899", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8479", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8479", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01478", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01478", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01920", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01920", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8846", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8846", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9089", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9089", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8925", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8925", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01242", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01242", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8090", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8090", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01212", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01212", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8763", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8763", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8424", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8424", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01697", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01697", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8918", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8918", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01758", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01758", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01841", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01841", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8048", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8048", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8648", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8648", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9140", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9140", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01926", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01926", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8723", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8723", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9142", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.805, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.769}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9142", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8484", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8484", "generated_candidate_id": "cand_06", "selected_candidate_id": "cand_06", "legal": true, "reward": 0.77, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.89, "primary_safety_legality": 0.722, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.725}, "primary_reward_channels": {"safety_legality": 0.722, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8475", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8475", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8097", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8097", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8042", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8042", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8341", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8341", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9197", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9197", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8997", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8997", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9154", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9154", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01374", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01374", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01436", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01436", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8006", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8006", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8306", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8306", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01265", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01265", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01891", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01891", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8839", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8839", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01273", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01273", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01857", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01857", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8478", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8478", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01989", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01989", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01827", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01827", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8073", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_11", "legal": true, "reward": 0.88, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.91, "primary_safety_legality": 0.977, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.863}, "primary_reward_channels": {"safety_legality": 0.977, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8073", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01345", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01345", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8951", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8951", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8316", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8316", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01525", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01525", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01616", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01616", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01977", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01977", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01625", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01625", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8995", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8995", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01347", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01347", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8821", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8821", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8629", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8629", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8495", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8495", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8189", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8189", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01414", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01414", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01940", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01940", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01886", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01886", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8681", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8681", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8830", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8830", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8923", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8923", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8557", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8557", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01458", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01458", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8980", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8980", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01734", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01734", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8625", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8625", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8520", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8520", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8128", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8128", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01263", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01263", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01778", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01778", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01523", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01523", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8089", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8089", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8666", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8666", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01828", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01828", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8406", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8406", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8874", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8874", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01837", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01837", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8527", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8527", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01360", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01360", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01862", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01862", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8148", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8148", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8244", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8244", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8362", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.762}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8362", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8816", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8816", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9027", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9027", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01336", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01336", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8754", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8754", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8002", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8002", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01227", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01227", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8116", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8116", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8431", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8431", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8749", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8749", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8173", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8173", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01805", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01805", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8768", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.829, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.799}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8768", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01320", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01320", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9004", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9004", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8076", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8076", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8507", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8507", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8052", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8052", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01915", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01915", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8716", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8716", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.383, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.697, "total_reward": 0.466}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.697}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01373", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01373", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01612", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01612", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9068", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9068", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8124", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8124", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9088", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9088", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01968", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01968", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8450", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8450", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01598", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01598", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8888", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8888", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8004", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8004", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9185", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9185", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8077", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8077", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8757", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8757", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8289", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8289", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9124", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9124", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8016", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8016", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8053", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8053", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8474", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8474", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8892", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8892", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8019", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8019", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8657", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8657", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8766", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8766", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9049", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9049", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8162", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8162", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01855", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01855", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01961", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01961", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8169", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8169", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01538", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01538", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01475", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01475", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8501", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8501", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01660", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01660", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01635", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01635", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8358", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8358", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8570", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8570", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8261", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8261", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01913", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01913", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01895", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01895", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8196", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8196", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8921", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8921", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9190", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9190", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8353", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.778}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8353", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9191", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9191", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8288", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8288", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8777", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8777", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8126", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8126", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8300", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8300", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01356", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01356", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8594", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8594", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8587", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8587", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8266", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8266", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.838, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.81}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01783", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01783", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01748", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01748", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8556", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8556", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01765", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01765", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8523", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8523", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8333", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8333", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9014", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9014", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8018", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8018", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01918", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01918", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01323", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01323", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01890", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01890", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01572", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01572", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8050", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8050", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8456", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8456", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8231", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8231", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8320", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8320", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.834, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.805}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8055", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8055", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01275", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01275", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01728", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01728", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8299", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8299", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01221", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01221", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01289", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01289", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01909", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01909", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9174", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9174", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8323", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8323", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8207", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8207", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01507", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01507", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9028", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9028", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01474", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01474", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9055", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9055", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.382, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.692, "total_reward": 0.465}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.692}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01794", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01794", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01967", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01967", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01313", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01313", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01204", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01204", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8658", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8658", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9135", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9135", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9165", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9165", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8930", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8930", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9037", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.762}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9037", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01439", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01439", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01686", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01686", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8175", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8175", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01315", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01315", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01756", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01756", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01385", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01385", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01543", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01543", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9007", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9007", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8330", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8330", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8170", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.808}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8170", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01566", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01566", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8708", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8708", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8146", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8146", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9082", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9082", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8695", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8695", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9040", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.382, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.692, "total_reward": 0.465}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.692}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9040", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8667", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8667", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01882", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01882", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01733", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01733", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8863", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8863", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01630", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01630", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8606", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8606", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8429", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8429", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8061", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8061", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8537", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8537", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01861", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01861", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8718", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8718", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01319", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01319", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8698", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.811, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.776}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8698", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8668", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8668", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8597", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8597", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8651", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8651", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8897", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8897", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8745", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8745", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01714", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01714", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01787", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01787", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9160", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9160", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9066", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9066", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01946", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01946", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8067", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8067", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8617", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8617", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01914", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01914", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01870", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01870", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8956", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.787}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8956", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8242", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.702}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8242", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.702}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8947", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.762}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8947", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01753", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01753", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01321", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01321", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8806", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8806", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.383, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.697, "total_reward": 0.466}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.697}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01745", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01745", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8988", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8988", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8999", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8999", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8550", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8550", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01590", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01590", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01491", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01491", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01868", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01868", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8984", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8984", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01956", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01956", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9168", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.816, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.782}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9168", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.816, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.782}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9156", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9156", "generated_candidate_id": "cand_06", "selected_candidate_id": "cand_06", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.89, "primary_safety_legality": 0.972, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.972, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01268", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01268", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01815", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01815", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01302", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01302", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8269", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8269", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8309", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8309", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01608", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01608", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01729", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01729", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9072", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9072", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8652", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8652", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01662", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01662", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8815", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8815", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01807", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01807", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8814", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8814", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8700", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8700", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01383", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01383", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01430", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01430", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8080", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8080", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8883", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8883", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8419", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8419", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01573", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01573", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01965", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01965", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8336", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8336", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8361", "generated_candidate_id": "cand_11", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8361", "generated_candidate_id": "cand_11", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8258", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8258", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01541", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01541", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01420", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01420", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8277", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8277", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8275", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8275", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8182", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8182", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01261", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01261", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8645", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8645", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8747", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8747", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01648", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01648", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01741", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01741", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9063", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9063", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9064", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9064", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01546", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01546", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01370", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01370", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8257", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8257", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01818", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01818", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01422", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01422", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8415", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8415", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8492", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8492", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01924", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01924", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01581", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01581", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01614", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01614", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9188", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9188", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01995", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01995", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01244", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01244", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01434", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01434", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8526", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8526", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01808", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01808", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01845", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01845", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01884", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01884", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8072", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8072", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01768", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01768", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8552", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8552", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8273", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8273", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01719", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01719", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8481", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8481", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01228", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01228", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01494", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01494", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01398", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01398", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8530", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8530", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.834, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.805}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8282", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8282", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01352", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01352", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8618", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8618", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8390", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8390", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01606", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01606", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8342", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8342", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8841", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8841", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01526", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01526", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8715", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8715", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01709", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01709", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8847", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8847", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01627", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01627", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01945", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01945", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9184", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9184", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8369", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8369", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01582", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01582", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01743", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01743", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8887", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8887", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8024", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8024", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8879", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8879", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01384", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01384", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8665", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.834, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.805}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8665", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.808}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01663", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01663", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8535", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8535", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01497", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01497", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8130", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8130", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01621", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01621", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8805", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8805", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8014", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8014", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8283", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8283", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8413", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8413", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01553", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01553", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01844", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01844", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8646", "generated_candidate_id": "cand_10", "selected_candidate_id": "cand_10", "legal": true, "reward": 0.818, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.9, "primary_safety_legality": 0.974, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.785}, "primary_reward_channels": {"safety_legality": 0.974, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8646", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01865", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01865", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01704", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01704", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8008", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8008", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01408", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01408", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8372", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8372", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01527", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01527", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8591", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8591", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01698", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01698", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8788", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8788", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8542", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8542", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8371", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8371", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01964", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01964", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01726", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01726", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01656", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01656", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01243", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01243", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8009", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8009", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01636", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01636", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01537", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01537", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8858", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8858", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01338", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01338", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8216", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8216", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9100", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.382, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.692, "total_reward": 0.465}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.692}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9100", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01301", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01301", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01970", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01970", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9093", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9093", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8643", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8643", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01207", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01207", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8677", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.762}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8677", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.762}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01927", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01927", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9019", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9019", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8467", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8467", "generated_candidate_id": "cand_10", "selected_candidate_id": "cand_10", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.9, "primary_safety_legality": 0.974, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.974, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01910", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01910", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8843", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8843", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8831", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8831", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01413", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01413", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8308", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8308", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9194", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9194", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9126", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9126", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9009", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9009", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8457", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8457", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01426", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01426", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8184", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8184", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9120", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9120", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01392", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01392", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8489", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8489", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8278", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8278", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01427", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01427", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01337", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01337", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01751", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01751", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01749", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01749", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01874", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01874", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01435", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01435", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8827", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8827", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8166", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8166", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01480", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01480", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9119", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9119", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01293", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01293", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01707", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01707", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8326", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8326", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8383", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.807, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.771}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8383", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01601", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01601", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01412", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01412", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8628", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8628", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01367", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01367", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8453", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8453", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8292", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8292", "generated_candidate_id": "cand_06", "selected_candidate_id": "cand_06", "legal": true, "reward": 0.77, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.89, "primary_safety_legality": 0.722, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.725}, "primary_reward_channels": {"safety_legality": 0.722, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01876", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01876", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9029", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9029", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8234", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8234", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01908", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01908", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8566", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8566", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.838, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.81}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01651", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01651", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01209", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01209", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8686", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8686", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8485", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.834, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.805}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8485", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8581", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8581", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.787}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8837", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8837", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9187", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9187", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01715", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01715", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8465", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8465", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8811", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8811", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01331", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01331", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01292", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01292", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8360", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8360", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8439", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8439", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9136", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.383, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.697, "total_reward": 0.466}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.697}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9136", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01795", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01795", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8483", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8483", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01286", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01286", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8359", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8359", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01401", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01401", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01754", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01754", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8627", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8627", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9108", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9108", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8079", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8079", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8856", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8856", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01717", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01717", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01750", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01750", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01838", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01838", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01880", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01880", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01378", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01378", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8676", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8676", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8671", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8671", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01647", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01647", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01344", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01344", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01208", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01208", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8238", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8238", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01531", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01531", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01291", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01291", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8176", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.838, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.81}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8176", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8254", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8254", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01215", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01215", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9020", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9020", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01943", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01943", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8325", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8325", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8220", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8220", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8056", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8056", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8911", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8911", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9051", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9051", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01310", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01310", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9101", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9101", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01234", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01234", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01622", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01622", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01935", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01935", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8724", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8724", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8487", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8487", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8256", "generated_candidate_id": "cand_06", "selected_candidate_id": "cand_06", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.89, "primary_safety_legality": 0.972, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.972, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8256", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01843", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01843", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9011", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9011", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8250", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8250", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9012", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9012", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8195", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8195", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8398", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8398", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8848", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8848", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.807, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.771}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8099", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8099", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9065", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9065", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01271", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01271", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8416", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8416", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8312", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8312", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01300", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01300", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8641", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8641", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8941", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8941", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8104", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8104", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8524", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8524", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9189", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9189", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8152", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8152", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.702}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8043", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8043", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01465", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01465", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01674", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01674", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8295", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8295", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8161", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8161", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8285", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8285", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01928", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01928", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8011", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8011", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9125", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9125", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9195", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9195", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8842", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.702}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8842", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9158", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9158", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8444", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8444", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01639", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01639", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01245", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01245", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8132", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8132", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.829, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.799}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01859", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01859", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8151", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8151", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9167", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9167", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8448", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.816, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.782}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8448", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.816, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.782}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8304", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8304", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8693", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8693", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8781", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8781", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8021", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8021", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01240", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01240", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8940", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8940", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8226", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8226", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8029", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8029", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01423", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01423", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8937", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8937", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8969", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8969", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8290", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8290", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01568", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01568", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9102", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9102", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8670", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8670", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01560", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01560", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8910", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8910", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9013", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9013", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8859", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8859", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8449", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8449", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01579", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01579", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8578", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8578", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8896", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8896", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8405", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8405", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01679", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01679", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8795", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8795", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01447", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01447", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01640", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01640", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8013", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8013", "generated_candidate_id": "cand_11", "selected_candidate_id": "cand_11", "legal": true, "reward": 0.88, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.91, "primary_safety_legality": 0.977, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.863}, "primary_reward_channels": {"safety_legality": 0.977, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9192", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9192", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01667", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01667", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8335", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.834, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.805}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8335", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9173", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9173", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8213", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8213", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8462", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8462", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01892", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01892", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01617", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01617", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01499", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01499", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8702", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8702", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8611", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8611", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9103", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9103", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01328", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01328", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01708", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01708", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01258", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01258", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8804", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8804", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01449", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01449", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01737", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01737", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01202", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01202", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8622", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8622", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01514", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01514", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01747", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01747", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8730", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8730", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8364", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8364", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8349", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8349", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01907", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01907", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01577", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01577", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8851", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8851", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01343", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01343", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01279", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01279", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01929", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01929", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8554", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8554", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01504", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01504", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8993", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8993", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01411", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01411", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01723", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01723", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01460", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01460", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8761", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8761", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01816", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01816", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8982", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8982", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8239", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8239", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8427", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8427", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8899", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8899", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01409", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01409", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8534", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8534", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01763", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01763", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01372", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01372", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9118", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9118", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.807, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.771}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01495", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01495", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01578", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01578", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9128", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9128", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9042", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9042", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01561", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01561", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01684", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01684", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01604", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01604", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9144", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9144", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9183", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9183", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8463", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8463", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01761", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01761", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9109", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9109", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01646", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01646", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8339", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8339", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9171", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9171", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8144", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8144", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01695", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01695", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8035", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.382, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.692, "total_reward": 0.465}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.692}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8035", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8828", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8828", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01774", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01774", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01366", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01366", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8721", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8721", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01692", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01692", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8522", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8522", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8000", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8000", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01311", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01311", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8129", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8129", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8412", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8412", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01528", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01528", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01502", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01502", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8193", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8193", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_11", "legal": true, "reward": 0.88, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.91, "primary_safety_legality": 0.977, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.863}, "primary_reward_channels": {"safety_legality": 0.977, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01957", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01957", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01817", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01817", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01712", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01712", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8909", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8909", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01676", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01676", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8247", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8247", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8614", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8614", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01832", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01832", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01867", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01867", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01211", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01211", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8750", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8750", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.788, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.748}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01624", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01624", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01569", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01569", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8034", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8034", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8932", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8932", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.702}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8059", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8059", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01248", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01248", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8186", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8186", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01530", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01530", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01231", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01231", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01574", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01574", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8411", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8411", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8983", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.789, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.749}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8983", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8500", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8500", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8265", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8265", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9018", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9018", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8499", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8499", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8898", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8898", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8529", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8529", "generated_candidate_id": "cand_11", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8345", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8345", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01864", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01864", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01746", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01746", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01570", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01570", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8717", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8717", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8098", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8098", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01222", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01222", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8531", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8531", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01314", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01314", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01515", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01515", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01272", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01272", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8025", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8025", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8337", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8337", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8441", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8441", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8504", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8504", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01732", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01732", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01206", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01206", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8426", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8426", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8544", "generated_candidate_id": "cand_10", "selected_candidate_id": "cand_10", "legal": true, "reward": 0.818, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.9, "primary_safety_legality": 0.974, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.785}, "primary_reward_channels": {"safety_legality": 0.974, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8544", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9077", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9077", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8143", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8143", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.807, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.771}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01471", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01471", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8296", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8296", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.796, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.758}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9110", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9110", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01233", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01233", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01397", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01397", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8270", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8270", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01216", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01216", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8893", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8893", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8958", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8958", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8560", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8560", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8399", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8399", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01990", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01990", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9030", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9030", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8926", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8926", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.383, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.697, "total_reward": 0.466}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.697}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8114", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8114", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01710", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01710", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8199", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8199", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8945", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8945", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01757", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01757", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8087", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8087", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8782", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8782", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.762}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8197", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8197", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8031", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8031", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01540", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01540", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8624", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.778}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8624", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8884", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8884", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8631", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8631", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8616", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8616", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01510", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01510", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8480", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8480", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01724", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01724", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01898", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01898", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9166", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.383, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.697, "total_reward": 0.466}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.697}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9166", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.383, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.697, "total_reward": 0.466}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.697}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8036", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8036", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8180", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8180", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8796", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8796", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01371", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01371", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01848", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01848", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9182", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9182", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8115", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8115", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8853", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8853", "generated_candidate_id": "cand_11", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8317", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8317", "generated_candidate_id": "cand_10", "selected_candidate_id": "cand_10", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.9, "primary_safety_legality": 0.974, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.974, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01947", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01947", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9084", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9084", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9085", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9085", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01304", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01304", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01333", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01333", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01529", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01529", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8532", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8532", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8154", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8154", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01799", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01799", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8784", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8784", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8855", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8855", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8069", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8069", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01539", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01539", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01896", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01896", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8832", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8832", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8772", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8772", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8549", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8549", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8397", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8397", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8783", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8783", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8103", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8103", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8773", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8773", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9177", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9177", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01632", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01632", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8600", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8600", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8509", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8509", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01448", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01448", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01953", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01953", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01644", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01644", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8711", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8711", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9062", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9062", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01664", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01664", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01677", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01677", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01958", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01958", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8576", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8576", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8727", "generated_candidate_id": "cand_10", "selected_candidate_id": "cand_10", "legal": true, "reward": 0.818, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.9, "primary_safety_legality": 0.974, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.785}, "primary_reward_channels": {"safety_legality": 0.974, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8727", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01556", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01556", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01225", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01225", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8351", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8351", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8734", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8734", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9133", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9133", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8366", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8366", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8365", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8365", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01969", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01969", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8112", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8112", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8070", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8070", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8647", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8647", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01389", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01389", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9132", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9132", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01290", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01290", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8188", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8188", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8446", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8446", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01689", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01689", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8209", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8209", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8060", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8060", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8872", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8872", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01852", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01852", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8736", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8736", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8968", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8968", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.807, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.771}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9178", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9178", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01403", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01403", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8274", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8274", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01643", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01643", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9104", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9104", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8802", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8802", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01851", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01851", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01595", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01595", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01489", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01489", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8607", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8607", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9153", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.783, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.425, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.518, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.741}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.518, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9153", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.783, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.425, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.518, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.741}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.518, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9152", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9152", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01941", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01941", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01461", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01461", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8101", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8101", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.796, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.758}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01785", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01785", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01988", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01988", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8005", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8005", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8944", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8944", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8368", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8368", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8225", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8225", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01711", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01711", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8395", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8395", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01241", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01241", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01466", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01466", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01699", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01699", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8585", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8585", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01853", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01853", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01645", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01645", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8905", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8905", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01657", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01657", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01769", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01769", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8536", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8536", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8248", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8248", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01991", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01991", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8539", "generated_candidate_id": "cand_10", "selected_candidate_id": "cand_10", "legal": true, "reward": 0.818, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.9, "primary_safety_legality": 0.974, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.785}, "primary_reward_channels": {"safety_legality": 0.974, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8539", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8833", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8833", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01809", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01809", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01930", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01930", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01477", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01477", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8518", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8518", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01548", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01548", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01720", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01720", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8901", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8901", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8920", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8920", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8580", "generated_candidate_id": "cand_06", "selected_candidate_id": "cand_06", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.89, "primary_safety_legality": 0.972, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.972, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8580", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8088", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8088", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.816, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.782}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8393", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8393", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01685", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01685", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01976", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01976", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01387", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01387", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01921", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01921", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01713", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01713", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01931", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01931", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9139", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9139", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8260", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8260", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8864", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8864", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8719", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8719", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01771", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01771", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8780", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8780", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01463", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01463", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8230", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8230", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01888", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01888", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01917", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01917", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8505", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.824, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.792}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8505", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8375", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8375", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9097", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9097", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8017", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8017", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01424", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01424", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8620", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8620", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.796, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.757}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8599", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8599", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8331", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8331", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01282", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01282", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01340", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01340", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01722", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01722", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01742", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01742", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01203", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01203", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01992", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01992", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8432", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8432", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8619", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8619", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8121", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8121", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8109", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8109", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8460", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8460", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8598", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8598", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01718", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01718", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8255", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8255", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8020", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8020", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.819, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.786}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8762", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8762", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01655", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01655", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8391", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8391", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8363", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8363", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8697", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8697", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8111", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8111", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8430", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8430", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8071", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8071", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8268", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8268", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01760", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01760", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9122", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9122", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01939", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01939", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8093", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8093", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01305", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01305", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8634", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8634", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8464", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8464", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01675", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01675", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01391", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01391", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8960", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8960", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01238", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01238", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8374", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8374", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01253", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01253", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8356", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8356", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01641", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01641", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01856", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01856", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01327", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01327", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8302", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8302", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.762}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8123", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8123", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9092", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9092", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8315", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8315", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8015", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8015", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8758", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8758", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01442", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01442", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9076", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9076", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9193", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9193", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.807, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.771}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9148", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9148", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01417", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01417", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8936", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8936", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01610", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01610", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01322", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01322", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8562", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8562", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8373", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8373", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8276", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.829, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.799}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8276", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01819", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01819", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01316", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01316", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01464", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01464", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01487", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01487", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01418", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01418", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01509", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01509", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01501", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01501", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8350", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8350", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9043", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9043", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01833", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01833", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8183", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8183", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01369", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01369", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9035", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9035", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01779", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01779", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8344", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8344", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01942", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01942", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01973", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01973", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01911", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01911", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01441", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01441", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9157", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9157", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01249", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01249", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9146", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9146", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9003", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9003", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8985", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8985", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8928", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8928", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9130", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9130", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8844", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8844", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8915", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8915", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8942", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8942", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8849", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8849", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01764", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01764", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8305", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8305", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8438", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8438", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8310", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8310", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9071", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9071", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8913", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_11", "legal": true, "reward": 0.88, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.91, "primary_safety_legality": 0.977, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.863}, "primary_reward_channels": {"safety_legality": 0.977, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8913", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_11", "legal": true, "reward": 0.88, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.91, "primary_safety_legality": 0.977, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.863}, "primary_reward_channels": {"safety_legality": 0.977, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8894", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8894", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8075", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8075", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01936", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01936", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01893", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01893", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01987", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01987", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8506", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8506", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8262", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8262", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8954", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8954", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8548", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8548", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8632", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8632", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8150", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8150", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01329", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01329", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8243", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8243", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01358", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01358", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01879", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01879", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9134", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9134", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8994", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8994", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8880", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8880", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01559", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01559", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01637", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01637", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9176", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9176", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9053", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9053", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8924", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8924", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01611", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01611", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8615", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8615", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8903", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8903", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01462", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01462", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01298", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01298", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01283", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01283", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01404", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01404", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8743", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8743", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01731", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01731", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01665", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01665", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8729", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8729", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9117", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9117", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8573", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8573", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01613", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01613", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8334", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8334", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8516", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8516", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01999", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01999", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8513", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8513", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01205", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01205", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01597", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01597", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8684", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8684", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01247", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01247", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8673", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8673", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8224", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8224", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01786", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01786", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8834", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8834", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01823", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01823", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01452", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01452", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01266", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01266", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8953", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8953", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01386", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01386", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8139", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8139", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01438", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01438", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8867", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8867", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8889", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8889", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8370", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8370", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8110", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8110", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01668", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01668", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8217", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8217", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01405", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01405", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8003", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8003", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8861", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8861", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8210", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8210", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8538", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8538", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8664", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8664", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01534", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01534", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01850", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01850", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8753", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8753", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8637", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8637", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8967", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8967", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8563", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8563", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8726", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8726", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9094", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9094", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8906", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8906", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8919", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8919", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01877", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01877", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8049", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8049", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.824, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.792}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8541", "generated_candidate_id": "cand_11", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8541", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01251", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01251", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8155", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8155", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.834, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.805}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01444", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01444", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01210", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01210", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8272", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8272", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.762}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8971", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8971", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01912", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01912", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8593", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8593", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8826", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8826", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8263", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8263", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01949", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01949", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01923", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01923", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8081", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8081", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9058", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9058", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8731", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8731", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9024", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9024", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8800", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8800", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01916", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01916", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8459", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8459", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01468", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01468", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8122", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.762}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8122", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8028", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8028", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01792", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01792", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8040", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8040", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01402", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01402", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8236", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8236", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01849", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01849", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01937", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01937", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8798", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8798", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9095", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9095", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8854", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8854", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01508", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01508", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8156", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8156", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8712", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8712", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01688", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01688", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9046", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.383, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.697, "total_reward": 0.466}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.697}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9046", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.838, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.81}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8385", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.783, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.425, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.518, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.741}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.518, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8385", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8083", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8083", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01700", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01700", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8546", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8546", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8078", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8078", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8807", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8807", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8746", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8746", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8502", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8502", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8259", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8259", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8963", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8963", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9196", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9196", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01459", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01459", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01522", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01522", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8739", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8739", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01419", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01419", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9114", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9114", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9079", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9079", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9056", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9056", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8707", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8707", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01955", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01955", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8436", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8436", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8981", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8981", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9172", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9172", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9083", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9083", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8010", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8010", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9129", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9129", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01277", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01277", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01200", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01200", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01738", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01738", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01773", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01773", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8547", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8547", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8455", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.382, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.692, "total_reward": 0.465}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.692}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8455", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8797", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8797", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01334", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01334", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8407", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8407", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01781", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01781", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01454", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01454", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01788", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01788", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8810", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8810", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01388", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01388", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01552", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01552", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01705", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01705", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8902", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8902", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.702}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8991", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8991", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01858", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01858", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01866", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01866", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8389", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8389", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01246", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01246", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8609", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8609", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8403", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8403", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8068", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8068", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8387", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8387", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01932", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01932", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9026", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9026", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01615", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01615", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01797", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01797", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9044", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9044", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01603", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01603", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01618", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01618", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8765", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8765", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8047", "generated_candidate_id": "cand_10", "selected_candidate_id": "cand_10", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.9, "primary_safety_legality": 0.974, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.974, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8047", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8946", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8946", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8866", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8866", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8493", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8493", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.824, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.793}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01922", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01922", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9155", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9155", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8045", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8045", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8408", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8408", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8328", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8328", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01869", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01869", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8367", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8367", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01638", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01638", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01394", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01394", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8311", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8311", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8949", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8949", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8466", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8466", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01703", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01703", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8559", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8559", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01557", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01557", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8871", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8871", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8280", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8280", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8543", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8543", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01759", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01759", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8482", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.762}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8482", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8709", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8709", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.807, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.771}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01619", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01619", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8138", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8138", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8204", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8204", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8819", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8819", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8738", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8738", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01605", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01605", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8338", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8338", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8639", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8639", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8157", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8157", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8318", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8318", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01308", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01308", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01365", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01365", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9021", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9021", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01346", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01346", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01421", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01421", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9090", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9090", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9015", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9015", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8030", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8030", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8770", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.382, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.692, "total_reward": 0.465}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.692}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8770", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.819, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.786}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01512", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01512", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8301", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.783, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.425, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.518, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.741}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.518, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8301", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8575", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.819, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.786}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8575", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8113", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8113", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8517", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8517", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8869", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8869", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01359", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01359", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01762", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01762", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01453", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01453", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01938", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01938", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8691", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8691", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8990", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8990", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01533", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01533", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8582", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8582", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01979", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01979", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01736", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01736", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8976", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8976", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8425", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8425", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8525", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8525", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01555", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01555", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01274", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01274", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01791", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01791", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8511", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8511", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9038", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9038", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01484", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01484", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8845", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8845", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9060", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9060", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01235", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01235", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8267", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8267", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9008", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9008", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8434", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8434", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8793", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8793", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8748", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8748", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01652", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01652", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8508", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8508", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8602", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8602", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.782, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.74}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01547", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01547", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8218", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8218", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8233", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8233", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01239", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01239", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9162", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9162", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8755", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8755", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01960", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01960", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9045", "generated_candidate_id": "cand_11", "selected_candidate_id": "cand_11", "legal": true, "reward": 0.88, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.91, "primary_safety_legality": 0.977, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.863}, "primary_reward_channels": {"safety_legality": 0.977, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9045", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01878", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01878", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01549", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01549", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01806", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01806", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01824", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01824", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01983", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01983", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8653", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8653", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8882", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8882", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01220", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01220", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8895", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8895", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8701", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8701", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8251", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8251", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01653", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01653", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8992", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8992", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01496", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01496", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8850", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8850", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8346", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8346", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01226", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01226", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8610", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8610", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8153", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8153", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8472", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8472", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8912", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8912", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9145", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9145", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8141", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8141", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9073", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9073", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8206", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8206", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01661", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01661", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9106", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9106", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01831", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01831", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8158", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8158", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8964", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8964", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01544", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01544", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8037", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8037", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01678", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01678", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8253", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8253", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8352", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8352", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01629", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01629", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8007", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8007", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8033", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8033", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8510", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8510", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8742", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8742", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01236", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01236", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01425", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01425", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8332", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.702}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8332", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.702}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8678", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8678", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01594", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01594", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01440", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01440", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01589", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01589", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01493", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01493", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01883", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01883", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8868", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8868", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01985", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01985", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8476", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8476", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8714", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8714", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01443", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01443", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8852", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8852", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01317", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01317", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8135", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8135", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01390", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01390", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8787", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8787", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01672", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01672", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8644", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8644", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01846", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01846", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01297", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01297", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01982", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01982", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01671", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01671", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01752", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01752", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01659", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01659", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8396", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.778}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8396", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8840", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8840", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01975", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01975", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01469", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01469", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9047", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9047", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01889", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01889", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01978", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01978", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9115", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9115", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01650", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01650", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8957", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8957", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8916", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8916", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8650", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.382, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.692, "total_reward": 0.465}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.692}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8650", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.382, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.692, "total_reward": 0.465}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.692}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01836", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01836", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8642", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8642", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01516", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01516", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8767", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8767", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8447", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8447", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8608", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8608", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01259", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01259", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8249", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8249", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01288", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01288", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8198", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8198", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01905", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01905", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8776", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8776", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8675", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8675", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8596", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.383, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.697, "total_reward": 0.466}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.697}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8596", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8232", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8232", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01986", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01986", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8812", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8812", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8140", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8140", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01727", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01727", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01237", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01237", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01776", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01776", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8876", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8876", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8281", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8281", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01218", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01218", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01966", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01966", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8211", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8211", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8728", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8728", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9116", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9116", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01482", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01482", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9023", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9023", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8621", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8621", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8613", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8613", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01811", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01811", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8809", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8809", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8423", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8423", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01766", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01766", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8540", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8540", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.829, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.799}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01767", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01767", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8803", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8803", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01332", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01332", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01446", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01446", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8086", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8086", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8324", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8324", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8961", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8961", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8163", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8163", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8066", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8066", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9061", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.383, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.697, "total_reward": 0.466}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.697}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9061", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01564", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01564", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9080", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9080", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8808", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8808", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9016", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9016", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8950", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.382, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.692, "total_reward": 0.465}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.692}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8950", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.382, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.692, "total_reward": 0.465}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.692}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01592", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01592", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8519", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8519", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01897", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01897", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8287", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8287", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8659", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8659", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8107", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.702}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8107", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8740", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8740", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01780", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01780", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8498", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8498", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8469", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8469", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9170", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9170", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8605", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8605", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01826", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01826", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8881", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8881", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01871", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01871", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01649", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01649", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01295", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01295", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8386", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8386", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8137", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8137", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01904", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01904", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01974", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01974", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8521", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8521", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9181", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9181", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01950", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01950", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8194", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8194", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8381", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8381", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8917", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8917", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8601", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8601", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8422", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8422", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.702}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8058", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8058", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01341", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01341", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8133", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.824, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.792}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8133", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.807, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.771}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9010", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9010", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01429", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01429", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8228", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8228", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01854", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01854", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8084", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8084", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01835", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01835", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8167", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8167", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01673", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01673", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8820", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8820", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01948", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01948", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8343", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8343", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8095", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8095", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.382, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.692, "total_reward": 0.465}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.692}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8192", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.788, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.748}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8192", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.788, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.748}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8347", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8347", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01633", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01633", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8200", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.834, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.805}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8200", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01696", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01696", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01536", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01536", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01232", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01232", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8091", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8091", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9050", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9050", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8865", "generated_candidate_id": "cand_11", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8865", "generated_candidate_id": "cand_11", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01810", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01810", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8623", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8623", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01721", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01721", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01377", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01377", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9078", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9078", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8603", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8603", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9147", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9147", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01583", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01583", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01524", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01524", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01863", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01863", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8877", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8877", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01269", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01269", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9096", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9096", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01307", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01307", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01379", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01379", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01666", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01666", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01702", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01702", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8435", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8435", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8705", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8705", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8965", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.819, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.786}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8965", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8660", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8660", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01963", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01963", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01325", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01325", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8118", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8118", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8752", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8752", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8032", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8032", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9001", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.796, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.758}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9001", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.796, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.758}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8891", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8891", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8756", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8756", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8989", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8989", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01626", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01626", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01997", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01997", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9057", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9057", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01887", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01887", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8571", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8571", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8503", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8503", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8181", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8181", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8922", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8922", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8612", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8612", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01802", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01802", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8553", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8553", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01607", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01607", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01584", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01584", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8001", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8001", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01591", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01591", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8584", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8584", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01588", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01588", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8380", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8380", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.382, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.692, "total_reward": 0.465}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.692}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01755", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01755", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8159", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8159", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8041", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8041", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01428", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01428", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01490", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01490", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8737", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8737", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8046", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8046", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01260", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01260", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01683", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01683", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01654", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01654", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01550", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01550", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01224", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01224", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8656", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8656", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8443", "generated_candidate_id": "cand_10", "selected_candidate_id": "cand_10", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.9, "primary_safety_legality": 0.974, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.974, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8443", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01631", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01631", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01706", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01706", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8685", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8685", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01740", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01740", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8279", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8279", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8769", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8769", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8955", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8955", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8682", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8682", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8636", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8636", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8626", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8626", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8588", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8588", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8590", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8590", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9075", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9075", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01342", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01342", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8775", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8775", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01800", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01800", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01254", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01254", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8725", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.808}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8725", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01962", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01962", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8319", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8319", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8402", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8402", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8219", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8219", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8688", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8688", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9121", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.383, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.697, "total_reward": 0.466}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.697}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9121", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01575", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01575", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01830", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01830", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01351", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01351", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01353", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01353", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8168", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8168", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8120", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8120", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8094", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.816, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.782}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8094", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.816, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.782}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01467", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01467", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8245", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8245", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01881", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01881", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8794", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8794", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8886", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8886", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8943", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8943", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01306", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01306", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8377", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8377", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9180", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9180", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8654", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8654", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9017", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.794, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9017", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8987", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8987", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01994", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01994", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01934", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01934", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8680", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8680", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8744", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8744", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8348", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8348", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8063", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8063", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01415", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01415", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01834", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01834", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8785", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8785", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.834, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.805}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8545", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8545", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8824", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8824", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01361", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01361", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9002", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9002", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.788, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.748}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8039", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8039", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01875", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01875", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01368", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01368", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01554", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01554", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8355", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8355", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9175", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9175", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01348", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01348", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01840", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01840", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8212", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.379, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.06, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.673, "total_reward": 0.461}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.673}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8212", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.805, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.769}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9025", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9025", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.902, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8171", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8171", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01485", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01485", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8996", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8996", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8786", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8786", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01903", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01903", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9112", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9112", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01596", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01596", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01381", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01381", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8799", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8799", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8264", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8264", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8583", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8583", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8142", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8142", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8934", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8934", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01450", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01450", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01284", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01284", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9000", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9000", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8293", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8293", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8551", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8551", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.814, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.78}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8862", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8862", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8445", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8445", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8927", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8927", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8706", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8706", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8458", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8458", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01472", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01472", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8878", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8878", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01829", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01829", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8291", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8291", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01230", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01230", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8054", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8054", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8131", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8131", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8085", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8085", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01971", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01971", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8568", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8568", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9179", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9179", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01349", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01349", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01214", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01214", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01919", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01919", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01687", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01687", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8720", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8720", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01470", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01470", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01255", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01255", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8938", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8938", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8952", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8952", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8674", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8674", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8497", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8497", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.702}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01303", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01303", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01951", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01951", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01981", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01981", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01681", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01681", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8514", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8514", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01628", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01628", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8977", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8977", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8703", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8703", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8235", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8235", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8222", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8222", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01980", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01980", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9164", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9164", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8692", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8692", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01270", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01270", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8823", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8823", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01355", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01355", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01318", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01318", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8382", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8382", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9032", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9032", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8012", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8012", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9034", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9034", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01535", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01535", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8962", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8962", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01730", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01730", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9041", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9041", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8473", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8473", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01998", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01998", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9081", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9081", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8246", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8246", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01410", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01410", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01772", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01772", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01278", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01278", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01339", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01339", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8401", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8401", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8117", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8117", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8986", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.383, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.697, "total_reward": 0.466}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.697}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8986", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.383, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.697, "total_reward": 0.466}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.697}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8741", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8741", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01565", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01565", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01296", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01296", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01694", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01694", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8662", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8662", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01558", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01558", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01505", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01505", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8284", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8284", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01393", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01393", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8970", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8970", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9067", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9067", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01375", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01375", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8191", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8191", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01350", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01350", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9039", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9039", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01500", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01500", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01457", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01457", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01519", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01519", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8574", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8574", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8870", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8870", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01796", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01796", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8221", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.383, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.697, "total_reward": 0.466}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.697}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8221", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01669", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01669", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8704", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8704", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9186", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9186", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8900", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8900", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8838", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8838", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01872", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01872", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01725", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01725", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8687", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8687", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01562", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01562", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01354", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01354", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8314", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8314", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8528", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8528", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8696", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8696", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9052", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9052", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.702}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01456", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01456", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8203", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8203", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01873", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01873", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8214", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8214", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01784", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01784", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8428", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.839, "total_reward": 0.798}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8428", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8751", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8751", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01600", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01600", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01281", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01281", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01801", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01801", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9161", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9161", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01264", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01264", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8108", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.83, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.8}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8108", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8354", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8354", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01782", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01782", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01492", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01492", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9036", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9036", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01518", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01518", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01406", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01406", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01363", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01363", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01813", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01813", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8327", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8327", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8044", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8044", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01839", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01839", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8440", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8440", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.856, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.833}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01580", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01580", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01563", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01563", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8378", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8378", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9086", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9086", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9198", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9198", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01680", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01680", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01576", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01576", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01634", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01634", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8494", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8494", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8127", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8127", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8119", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8119", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8829", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8829", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01996", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01996", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8379", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8379", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9137", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9137", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8567", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8567", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01933", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01933", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01521", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01521", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01642", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01642", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01324", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01324", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8933", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8933", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8565", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8565", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01925", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01925", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01793", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01793", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8564", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8564", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8979", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8979", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01498", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01498", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8732", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8732", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01789", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01789", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01952", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01952", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9005", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9005", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8145", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8145", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8451", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8451", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8978", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8978", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8187", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8187", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01944", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01944", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8417", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8417", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8857", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8857", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8663", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8663", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01775", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01775", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01262", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01262", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8515", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8515", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8792", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8792", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01984", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01984", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9091", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9091", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8376", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8376", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9131", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9131", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8488", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8488", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8092", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.805, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.769}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8092", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8452", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8452", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8420", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8420", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8975", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8975", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9151", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9151", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8813", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8813", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.817, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.784}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8533", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8533", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8914", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8914", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8791", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.857, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.834}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8791", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8835", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8835", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9149", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9149", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8433", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8433", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8125", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8125", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8096", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8096", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01691", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01691", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8134", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8134", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8669", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8669", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01287", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01287", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01285", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01285", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8062", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8062", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9099", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9099", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8394", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8394", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8630", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8630", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01585", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01585", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9033", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9033", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8778", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8778", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8604", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8604", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01326", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01326", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8722", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.843, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.816}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8722", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.831, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.831}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8023", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.85, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.825}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8023", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8822", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8822", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8907", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8907", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8106", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8106", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8661", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8661", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8558", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8558", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8229", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8229", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01252", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01252", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8471", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8471", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8929", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8929", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8512", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.69, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.831, "total_reward": 0.702}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.831}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8512", "generated_candidate_id": "cand_07", "selected_candidate_id": "cand_07", "legal": true, "reward": 0.82, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.833, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.85, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.98, "primary_safety_legality": 0.994, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.9, "total_reward": 0.788}, "primary_reward_channels": {"safety_legality": 0.994, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.9}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9074", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9074", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8271", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8271", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8202", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8202", "generated_candidate_id": "cand_08", "selected_candidate_id": "cand_08", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.94, "primary_safety_legality": 0.984, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.984, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01357", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01357", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8496", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8496", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01954", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01954", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8340", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8340", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8022", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8022", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9113", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9113", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01593", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01593", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9143", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9143", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8771", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8771", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9098", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.657, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.657}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9098", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8038", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.376, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.629, "total_reward": 0.457}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.629}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8038", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8357", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8357", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8672", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8672", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01670", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01670", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9070", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.819, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.786}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9070", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8774", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8774", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8860", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.765, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.719}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8860", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.834, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.805}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8205", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.752, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.703}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8205", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.815, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.69, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.607, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.781}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.607, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01693", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01693", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8147", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8147", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01362", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01362", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01993", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01993", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8683", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.807, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.56, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.839, "total_reward": 0.771}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.839}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8683", "generated_candidate_id": "cand_12", "selected_candidate_id": "cand_12", "legal": true, "reward": 0.823, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.875, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.9, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.96, "primary_safety_legality": 0.989, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.923, "total_reward": 0.791}, "primary_reward_channels": {"safety_legality": 0.989, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.923}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01294", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01294", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8223", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8223", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01483", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01483", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8760", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8760", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8400", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8400", "generated_candidate_id": "cand_10", "selected_candidate_id": "cand_10", "legal": true, "reward": 0.818, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.9, "primary_safety_legality": 0.974, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.785}, "primary_reward_channels": {"safety_legality": 0.974, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "justified_review_escalation"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8948", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.828, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.867, "total_reward": 0.797}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8948", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.806, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.77}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8592", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.855, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8592", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_05", "legal": true, "reward": 0.835, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01250", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01250", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8491", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8491", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.766, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.907, "total_reward": 0.72}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.907}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01812", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01812", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01335", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01335", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01587", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01587", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8026", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.383, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.697, "total_reward": 0.466}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.697}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8026", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.836, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.909, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.907, "total_reward": 0.807}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.907}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8486", "generated_candidate_id": "cand_09", "selected_candidate_id": "cand_09", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.88, "primary_safety_legality": 0.969, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.778}, "primary_reward_channels": {"safety_legality": 0.969, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "justified_review_escalation"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8486", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01842", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01842", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8817", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8817", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8100", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8100", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8589", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8589", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9138", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9138", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8237", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8237", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8185", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.382, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.692, "total_reward": 0.465}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.692}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8185", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01690", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01690", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01473", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01473", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01503", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01503", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9105", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9105", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_04", "legal": true, "reward": 0.878, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.88, "burden_improvement_score": 0.76, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.847, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.86}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.847, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01735", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01735", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8064", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8064", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8179", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8179", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8286", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8286", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01790", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01790", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9150", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9150", "generated_candidate_id": "cand_04", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8177", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.833, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8177", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01201", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01201", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8699", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8699", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8790", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8790", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01821", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01821", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8477", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8477", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_9141", "generated_candidate_id": "cand_03", "selected_candidate_id": "cand_03", "legal": true, "reward": 0.822, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.79}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.603, "dosing_quality": 0.655, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_9141", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.8, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.41, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.603, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.763}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.603, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8442", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8442", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": false, "reward": 0.38, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.001, "safety_delta_score": 0.001, "burden_improvement_score": 0.001, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.08, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.695, "primary_clinical_improvement": 0.194, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.684, "total_reward": 0.463}, "primary_reward_channels": {"safety_legality": 0.695, "clinical_improvement": 0.194, "dosing_quality": 0.53, "process_integrity": 0.684}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01658", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01658", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8240", "generated_candidate_id": "cand_05", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8240", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.759, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.75, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.867, "total_reward": 0.711}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.867}, "termination_reason": "exploit_detection"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8873", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.764, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "exploit_detection"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8873", "generated_candidate_id": "cand_02", "selected_candidate_id": "cand_02", "legal": true, "reward": 0.832, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01532", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01532", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "planner_action_selection", "patient_id": "patient_8635", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "planner_action_selection", "patient_id": "patient_8635", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.813, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.889, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.902, "total_reward": 0.779}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.902}, "termination_reason": "ongoing"}
+{"idx": 0, "task": "instruction_following", "patient_id": "case_01217", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
+{"idx": 1, "task": "instruction_following", "patient_id": "case_01217", "generated_candidate_id": "cand_01", "selected_candidate_id": "cand_01", "legal": true, "reward": 0.812, "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}, "termination_reason": "ongoing"}
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/grpo_trl_run.json b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/grpo_trl_run.json
new file mode 100644
index 0000000000000000000000000000000000000000..87ca8fb39dcfbc92786e290045c1da201ca5d1df
--- /dev/null
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/grpo_trl_run.json
@@ -0,0 +1,43 @@
+{
+  "status": "ok",
+  "backend": "trl_transformers",
+  "model_id": "Qwen/Qwen2.5-3B-Instruct",
+  "records": 2000,
+  "prompts_path": "/app/data/processed/training_corpus_grpo_prompts.jsonl",
+  "reward_summary": {
+    "count": 4000,
+    "avg_reward": 0.767,
+    "avg_reward_components": {
+      "format_compliance_score": 0.999,
+      "candidate_alignment_score": 0.999,
+      "legality_score": 0.929,
+      "safety_delta_score": 0.497,
+      "burden_improvement_score": 0.469,
+      "disease_stability_score": 0.861,
+      "dosing_quality_score": 0.526,
+      "abstention_quality_score": 0.56,
+      "efficiency_score": 0.849,
+      "process_fidelity_score": 0.856,
+      "explanation_grounding_score": 0.795,
+      "anti_cheat_score": 0.589,
+      "uncertainty_calibration_score": 0.747
+    },
+    "avg_primary_reward_channels": {
+      "safety_legality": 0.816,
+      "clinical_improvement": 0.609,
+      "dosing_quality": 0.543,
+      "process_integrity": 0.875
+    }
+  },
+  "reward_log": "/app/checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl",
+  "train_metrics": {
+    "train_runtime": 6873.9375,
+    "train_samples_per_second": 0.291,
+    "train_steps_per_second": 0.291,
+    "total_flos": 0.0,
+    "train_loss": 2.665005830824185e-06
+  },
+  "history_path": "/app/checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_history.json",
+  "artifact_path": "/app/checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_adapter",
+  "unsloth_available": false
+}
\ No newline at end of file
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/postsave_inference_grpo.json b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/postsave_inference_grpo.json
new file mode 100644
index 0000000000000000000000000000000000000000..6f146ec46e61500fb1904fe354c75dfb860c0700
--- /dev/null
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/postsave_inference_grpo.json
@@ -0,0 +1,71 @@
+{
+  "status": "ok",
+  "model_source": "adapter",
+  "model_load_error": "",
+  "samples": 5,
+  "valid_rate": 1.0,
+  "avg_env_reward": 0.726,
+  "avg_latency_seconds": 3.681,
+  "results": [
+    {
+      "idx": 0,
+      "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8000\", \"candidate_ids\": [\"cand_01\", \"cand_02\", \"cand_03\", \"cand_04\", \"cand_05\", \"cand_08\", \"cand_09\", \"cand_10\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
+      "completion": "{\"candidate_id\": \"cand_01\", \"rationale\": \"The patient is a 67-year-old male with a history of hypertension, hyperlipidemia, and type 2 diabetes. He has been on metformin for 10 years and lisinopril for 5 years. He has no significant past medical history. He is a current smoker and drinks",
+      "candidate_id": "cand_01",
+      "selected_candidate": "cand_01",
+      "env_reward": 0.717,
+      "latency_seconds": 3.941,
+      "done": true,
+      "valid": true,
+      "termination_reason": "exploit_detection"
+    },
+    {
+      "idx": 1,
+      "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8001\", \"candidate_ids\": [\"cand_01\", \"cand_02\", \"cand_03\", \"cand_05\", \"cand_08\", \"cand_09\", \"cand_10\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
+      "completion": "{\"candidate_id\": \"cand_01\", \"rationale\": \"The patient is a 46-year-old female with a history of hypertension, hyperlipidemia, and type 2 diabetes. She has been on metformin for her diabetes and lisinopril for her hypertension. The patient is currently being evaluated for possible coronary artery disease (CAD) due to symptoms of",
+      "candidate_id": "cand_01",
+      "selected_candidate": "cand_01",
+      "env_reward": 0.703,
+      "latency_seconds": 3.634,
+      "done": true,
+      "valid": true,
+      "termination_reason": "exploit_detection"
+    },
+    {
+      "idx": 2,
+      "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8002\", \"candidate_ids\": [\"cand_07\", \"cand_01\", \"cand_02\", \"cand_03\", \"cand_04\", \"cand_08\", \"cand_09\", \"cand_10\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
+      "completion": "{\"candidate_id\": \"cand_01\", \"rationale\": \"The patient is a 65 year old male with a history of hypertension, hyperlipidemia, and type 2 diabetes. He has been on metformin for 10 years and lisinopril for 5 years. He has not had any recent hospitalizations or emergency department visits. His most",
+      "candidate_id": "cand_01",
+      "selected_candidate": "cand_01",
+      "env_reward": 0.717,
+      "latency_seconds": 3.636,
+      "done": true,
+      "valid": true,
+      "termination_reason": "exploit_detection"
+    },
+    {
+      "idx": 3,
+      "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8003\", \"candidate_ids\": [\"cand_01\", \"cand_02\", \"cand_03\", \"cand_04\", \"cand_05\", \"cand_08\", \"cand_09\", \"cand_10\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
+      "completion": "{\"candidate_id\": \"cand_01\", \"rationale\": \"The patient is a 67 year old male with a history of hypertension, hyperlipidemia, and type 2 diabetes. He has been on metformin for 10 years and lisinopril for 5 years. He has not had any recent hospitalizations or emergency department visits. His most",
+      "candidate_id": "cand_01",
+      "selected_candidate": "cand_01",
+      "env_reward": 0.777,
+      "latency_seconds": 3.548,
+      "done": false,
+      "valid": true,
+      "termination_reason": "ongoing"
+    },
+    {
+      "idx": 4,
+      "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8004\", \"candidate_ids\": [\"cand_01\", \"cand_02\", \"cand_03\", \"cand_04\", \"cand_08\", \"cand_09\", \"cand_10\", \"cand_06\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
+      "completion": "{\"candidate_id\": \"cand_01\", \"rationale\": \"The patient is a 57 year old male with a history of hypertension, hyperlipidemia, and type 2 diabetes. He has been on metformin for 10 years and lisinopril for 5 years. He has not had any recent hospitalizations or surgeries. His most recent A",
+      "candidate_id": "cand_01",
+      "selected_candidate": "cand_01",
+      "env_reward": 0.717,
+      "latency_seconds": 3.647,
+      "done": true,
+      "valid": true,
+      "termination_reason": "exploit_detection"
+    }
+  ]
+}
\ No newline at end of file
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/postsave_inference_sft.json b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/postsave_inference_sft.json
index 40d6577dec4199160cb23eb63f3805b530c38dd7..ca3ec176b1d1c070155376b509f617e30945a687 100644
--- a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/postsave_inference_sft.json
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/postsave_inference_sft.json
@@ -4,17 +4,17 @@
   "model_load_error": "",
   "samples": 5,
   "valid_rate": 1.0,
-  "avg_env_reward": 0.762,
-  "avg_latency_seconds": 2.748,
+  "avg_env_reward": 0.781,
+  "avg_latency_seconds": 2.863,
   "results": [
     {
       "idx": 0,
       "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8000\", \"candidate_ids\": [\"cand_01\", \"cand_02\", \"cand_03\", \"cand_04\", \"cand_05\", \"cand_08\", \"cand_09\", \"cand_10\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
-      "completion": "; %{ \"patient_id\": \"patient_8000\", \"rationale\": \"candidate_id=cand_08; The patient is experiencing a high fever, which is a symptom of an infection. This suggests that the patient may have a bacterial infection, which would be treated with antibiotics. Candidate_id=cand_08 prescribes antibiotics, which are appropriate for treating bacterial infections.\",",
+      "completion": "=> { \"decision\": {\"candidate_id\": \"cand_08\", \"reason_score\": 10, \"format\": \"candidate_id=cand_08;rationale=;\"}, \"patients\": [ \"patient_8000\" ] } {\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8000\", \"",
       "candidate_id": "cand_08",
       "selected_candidate": "cand_08",
       "env_reward": 0.806,
-      "latency_seconds": 3.164,
+      "latency_seconds": 3.285,
       "done": false,
       "valid": true,
       "termination_reason": "ongoing"
@@ -22,11 +22,11 @@
     {
       "idx": 1,
       "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8001\", \"candidate_ids\": [\"cand_01\", \"cand_02\", \"cand_03\", \"cand_05\", \"cand_08\", \"cand_09\", \"cand_10\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
-      "completion": "{\"candidate_id\": \"candidate_id\": \"cand_05\", \"rationale\": \"patient mentions having a headache and taking medicine. cand_05 explains that the patient is taking medicine for a headache, which aligns with the patient's symptoms. cand_09 does not mention any medication. cand_01 mentions nausea but no headache. cand_02 mentions fever but",
-      "candidate_id": "cand_05",
-      "selected_candidate": "cand_05",
-      "env_reward": 0.792,
-      "latency_seconds": 2.656,
+      "completion": "; {!!$instruction!!}; {!!$patient_id!!}; {!!$candidate_ids[$rand(0, $candidate_count-1)]!!}; {!!\"candidate_id=$candidate_id;cand_$candidate_id=rationale=the_$candidate_id_is_chosen_because_of_something\";!!}; patient_8001; candidate_id=cand_08;cand_08=rationale",
+      "candidate_id": "cand_08",
+      "selected_candidate": "cand_08",
+      "env_reward": 0.793,
+      "latency_seconds": 2.691,
       "done": false,
       "valid": true,
       "termination_reason": "ongoing"
@@ -34,11 +34,11 @@
     {
       "idx": 2,
       "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8002\", \"candidate_ids\": [\"cand_07\", \"cand_01\", \"cand_02\", \"cand_03\", \"cand_04\", \"cand_08\", \"cand_09\", \"cand_10\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
-      "completion": "; %+difference_in_format_instruction = true %{\"patient_id\": \"patient_8002\", \"candidate_ids\": [\"cand_07\", \"cand_01\", \"cand_02\", \"cand_03\", \"cand_04\", \"cand_08\", \"cand_09\", \"cand_10",
-      "candidate_id": "cand_07",
+      "completion": "=> { \"patient_id\": \"patient_8002\", \"candidate_ids\": [\"url=cand_01\"], \"format\": \"candidate_id=url_cand_01; rationale: This is a question about the 2016 US presidential election, where Hillary Clinton was the Democratic nominee. Her campaign website can be found at this url.\" }\nExplanation by model: The",
+      "candidate_id": "cand_01",
       "selected_candidate": "cand_01",
       "env_reward": 0.717,
-      "latency_seconds": 2.641,
+      "latency_seconds": 2.727,
       "done": true,
       "valid": true,
       "termination_reason": "exploit_detection"
@@ -46,26 +46,26 @@
     {
       "idx": 3,
       "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8003\", \"candidate_ids\": [\"cand_01\", \"cand_02\", \"cand_03\", \"cand_04\", \"cand_05\", \"cand_08\", \"cand_09\", \"cand_10\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
-      "completion": "; //= = = = = = = = = = = = = = = FUNCTION select_best_candidate(candidate_ids=LIST_of_STR, patient_id=STR, candidates_dict=DICTIONARY_OF_TUPLES) ;; best_candidate_id := candidate_ids[0]; strongest_rationale := candidates_dict[candidate_ids[0]][1]; for i in range(1, len(candidate_ids)) { this",
-      "candidate_id": null,
-      "selected_candidate": "cand_01",
-      "env_reward": 0.777,
-      "latency_seconds": 2.643,
-      "done": false,
+      "completion": "=> { \"patient_id\": \"patient_8003\", \"candidate_ids\": [\"url=candidate_name&candidate_id={cand_09}&rationale=The+rationale+for+choosing+cand_09+is+that+it+contains+a+url+which+is+a+common+sign+of+potentially+malicious+content",
+      "candidate_id": "cand_09",
+      "selected_candidate": "cand_09",
+      "env_reward": 0.784,
+      "latency_seconds": 2.83,
+      "done": true,
       "valid": true,
-      "termination_reason": "ongoing"
+      "termination_reason": "justified_review_escalation"
     },
     {
       "idx": 4,
       "prompt": "{\"instruction\": \"Choose one candidate_id and justify briefly.\", \"patient_id\": \"patient_8004\", \"candidate_ids\": [\"cand_01\", \"cand_02\", \"cand_03\", \"cand_04\", \"cand_08\", \"cand_09\", \"cand_10\", \"cand_06\"], \"format\": \"candidate_id=<cand_xx>; rationale=<text>\"}",
-      "completion": "; %+difference_in_format_instruction = true %{\"patient_id\": \"patient_8004\", \"candidate_ids\": [\"cand_01\", \"cand_02\", \"cand_03\", \"cand_04\", \"cand_08\", \"cand_09\", \"cand_10\", \"cand_06",
-      "candidate_id": "cand_01",
-      "selected_candidate": "cand_01",
-      "env_reward": 0.717,
-      "latency_seconds": 2.638,
-      "done": true,
+      "completion": "=> { \"candidate_id\": \"cand_08\", \"rationale\": \"The patient mentions a 'doctor' and 'prescription', which is consistent with the need for a 'medicine prescription'. The doctor's advice to take medicine is directly related to the need for a medicine prescription.\" }\n\u6559\u5bfc\uff1a\u5728\u56de\u7b54\u54ea\u4e2a\u5019\u9009\u9879\u6700\u6709\u53ef\u80fd\u6210\u529f\u65f6\uff0c\u63d0\u4f9b\u4e00\u4e2a\u5408\u7406\u7684rationale\u6bb5\u843d",
+      "candidate_id": "cand_08",
+      "selected_candidate": "cand_08",
+      "env_reward": 0.806,
+      "latency_seconds": 2.782,
+      "done": false,
       "valid": true,
-      "termination_reason": "exploit_detection"
+      "termination_reason": "ongoing"
     }
   ]
 }
\ No newline at end of file
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/submission_summary.json b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/submission_summary.json
index 37ed640b9c257b54c6061eb0aa61029be64cbebb..1af4d87d30f0dd4625c00e16b875bcd952d16459 100644
--- a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/submission_summary.json
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/submission_summary.json
@@ -1,6 +1,6 @@
 {
   "status": "ok",
-  "generated_at_unix": 1777182606.439865,
+  "generated_at_unix": 1777188944.32916,
   "models": [
     {
       "run_id": "qwen-qwen2-5-0-5b-instruct",
@@ -93,9 +93,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "not_seen_in_status",
-        "grpo_postsave_inference": "not_seen_in_status",
-        "policy_ablation": "not_seen_in_status"
+        "grpo_training": "artifact_available",
+        "grpo_postsave_inference": "artifact_available",
+        "policy_ablation": "artifact_available"
       },
       "metrics": {
         "sft_train_loss": 0.15688225453009363,
@@ -107,33 +107,33 @@
         "sft_best_loss": 0.0022,
         "sft_last_token_accuracy": 0.9750415682792664,
         "sft_valid_rate": 1.0,
-        "sft_avg_env_reward": 0.762,
-        "sft_avg_latency_seconds": 2.748,
-        "grpo_avg_reward": null,
-        "grpo_history_steps": 0,
-        "grpo_valid_rate": null,
-        "grpo_avg_env_reward": null,
-        "grpo_avg_latency_seconds": null
+        "sft_avg_env_reward": 0.781,
+        "sft_avg_latency_seconds": 2.863,
+        "grpo_avg_reward": 0.767,
+        "grpo_history_steps": 2001,
+        "grpo_valid_rate": 1.0,
+        "grpo_avg_env_reward": 0.726,
+        "grpo_avg_latency_seconds": 3.681
       },
       "files": {
         "run_metadata.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/run_metadata.json",
         "sft_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_trl_run.json",
         "sft_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_history.json",
         "postsave_inference_sft.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/postsave_inference_sft.json",
-        "grpo_trl_run.json": "",
-        "grpo_history.json": "",
-        "grpo_reward_components.jsonl": "",
-        "postsave_inference_grpo.json": "",
-        "grpo_ablation_report.json": "",
+        "grpo_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_trl_run.json",
+        "grpo_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_history.json",
+        "grpo_reward_components.jsonl": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl",
+        "postsave_inference_grpo.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/postsave_inference_grpo.json",
+        "grpo_ablation_report.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_ablation_report.json",
         "error.json": ""
       }
     }
   ],
   "artifact_repo": {
-    "repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
-    "status": "skipped_local_only",
+    "repo_id": "adithya9903/polyguard-openenv-training-3b-artifacts",
+    "status": "error",
     "files": [],
-    "error": ""
+    "error": "(MaxRetryError('HTTPSConnectionPool(host=\\'huggingface.co\\', port=443): Max retries exceeded with url: /api/models/adithya9903/polyguard-openenv-training-3b-artifacts/tree/main?recursive=True&expand=False (Caused by NameResolutionError(\"HTTPSConnection(host=\\'huggingface.co\\', port=443): Failed to resolve \\'huggingface.co\\' ([Errno 8] nodename nor servname provided, or not known)\"))'), '(Request ID: e2bfdc8f-d828-47fb-88e5-d9e657891fc3)')"
   },
   "remote_snapshot_used": "",
   "training_space_status": {
@@ -189,12 +189,7 @@
     "Qwen 1.5B grpo_postsave_inference: not_seen_in_status",
     "Qwen 1.5B grpo_training: not_seen_in_status",
     "Qwen 1.5B policy_ablation: not_seen_in_status",
-    "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload",
-    "Qwen 3B grpo_history.json: pending_artifact_upload",
-    "Qwen 3B grpo_postsave_inference: not_seen_in_status",
-    "Qwen 3B grpo_training: not_seen_in_status",
-    "Qwen 3B policy_ablation: not_seen_in_status",
-    "Qwen 3B postsave_inference_grpo.json: pending_artifact_upload"
+    "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload"
   ],
   "reward_validation_errors": [],
   "primary_judge": "PolyGuard verifier/reward system"
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/submission_summary.json b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/submission_summary.json
index 37ed640b9c257b54c6061eb0aa61029be64cbebb..1af4d87d30f0dd4625c00e16b875bcd952d16459 100644
--- a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/submission_summary.json
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/submission_summary.json
@@ -1,6 +1,6 @@
 {
   "status": "ok",
-  "generated_at_unix": 1777182606.439865,
+  "generated_at_unix": 1777188944.32916,
   "models": [
     {
       "run_id": "qwen-qwen2-5-0-5b-instruct",
@@ -93,9 +93,9 @@
       "statuses": {
         "sft_training": "artifact_available",
         "sft_postsave_inference": "artifact_available",
-        "grpo_training": "not_seen_in_status",
-        "grpo_postsave_inference": "not_seen_in_status",
-        "policy_ablation": "not_seen_in_status"
+        "grpo_training": "artifact_available",
+        "grpo_postsave_inference": "artifact_available",
+        "policy_ablation": "artifact_available"
       },
       "metrics": {
         "sft_train_loss": 0.15688225453009363,
@@ -107,33 +107,33 @@
         "sft_best_loss": 0.0022,
         "sft_last_token_accuracy": 0.9750415682792664,
         "sft_valid_rate": 1.0,
-        "sft_avg_env_reward": 0.762,
-        "sft_avg_latency_seconds": 2.748,
-        "grpo_avg_reward": null,
-        "grpo_history_steps": 0,
-        "grpo_valid_rate": null,
-        "grpo_avg_env_reward": null,
-        "grpo_avg_latency_seconds": null
+        "sft_avg_env_reward": 0.781,
+        "sft_avg_latency_seconds": 2.863,
+        "grpo_avg_reward": 0.767,
+        "grpo_history_steps": 2001,
+        "grpo_valid_rate": 1.0,
+        "grpo_avg_env_reward": 0.726,
+        "grpo_avg_latency_seconds": 3.681
       },
       "files": {
         "run_metadata.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/run_metadata.json",
         "sft_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_trl_run.json",
         "sft_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/sft_history.json",
         "postsave_inference_sft.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/postsave_inference_sft.json",
-        "grpo_trl_run.json": "",
-        "grpo_history.json": "",
-        "grpo_reward_components.jsonl": "",
-        "postsave_inference_grpo.json": "",
-        "grpo_ablation_report.json": "",
+        "grpo_trl_run.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_trl_run.json",
+        "grpo_history.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_history.json",
+        "grpo_reward_components.jsonl": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl",
+        "postsave_inference_grpo.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/postsave_inference_grpo.json",
+        "grpo_ablation_report.json": "outputs/reports/submission_evidence/qwen_0_5b_1_5b_3b/runs/qwen-qwen2-5-3b-instruct/grpo_ablation_report.json",
         "error.json": ""
       }
     }
   ],
   "artifact_repo": {
-    "repo_id": "TheJackBright/polyguard-openenv-training-full-artifacts",
-    "status": "skipped_local_only",
+    "repo_id": "adithya9903/polyguard-openenv-training-3b-artifacts",
+    "status": "error",
     "files": [],
-    "error": ""
+    "error": "(MaxRetryError('HTTPSConnectionPool(host=\\'huggingface.co\\', port=443): Max retries exceeded with url: /api/models/adithya9903/polyguard-openenv-training-3b-artifacts/tree/main?recursive=True&expand=False (Caused by NameResolutionError(\"HTTPSConnection(host=\\'huggingface.co\\', port=443): Failed to resolve \\'huggingface.co\\' ([Errno 8] nodename nor servname provided, or not known)\"))'), '(Request ID: e2bfdc8f-d828-47fb-88e5-d9e657891fc3)')"
   },
   "remote_snapshot_used": "",
   "training_space_status": {
@@ -189,12 +189,7 @@
     "Qwen 1.5B grpo_postsave_inference: not_seen_in_status",
     "Qwen 1.5B grpo_training: not_seen_in_status",
     "Qwen 1.5B policy_ablation: not_seen_in_status",
-    "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload",
-    "Qwen 3B grpo_history.json: pending_artifact_upload",
-    "Qwen 3B grpo_postsave_inference: not_seen_in_status",
-    "Qwen 3B grpo_training: not_seen_in_status",
-    "Qwen 3B policy_ablation: not_seen_in_status",
-    "Qwen 3B postsave_inference_grpo.json: pending_artifact_upload"
+    "Qwen 1.5B postsave_inference_grpo.json: pending_artifact_upload"
   ],
   "reward_validation_errors": [],
   "primary_judge": "PolyGuard verifier/reward system"
diff --git a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/traces/action_traces.jsonl b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/traces/action_traces.jsonl
index 442e0e1f4795d18ffe2282a9df799ec0f5b6c8b8..d56e880924f72c4f93f612c103f83f5f25925362 100644
--- a/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/traces/action_traces.jsonl
+++ b/docs/results/submission_evidence_qwen_0_5b_1_5b_3b/traces/action_traces.jsonl
@@ -1,24 +1,24 @@
-{"seed": 8000, "policy": "basic_llm", "reward": 0.717, "latency_seconds": 0.0219, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "exploit_detection", "failure_reasons": ["holdout_ddi_not_addressed"], "anti_cheat_reasons": ["holdout_ddi_not_addressed"], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8000, "policy": "sft_policy", "reward": 0.803, "latency_seconds": 0.0013, "legal": true, "candidate_id": "cand_02", "action_type": "STOP_DRUG", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8000, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 3.0648, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
-{"seed": 8001, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0016, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8001, "policy": "sft_policy", "reward": 0.755, "latency_seconds": 0.0015, "legal": true, "candidate_id": "cand_02", "action_type": "STOP_DRUG", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8001, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0027, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
-{"seed": 8002, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8002, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8002, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 0.0022, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
-{"seed": 8003, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0015, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8003, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0013, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8003, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0026, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
-{"seed": 8004, "policy": "basic_llm", "reward": 0.717, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "exploit_detection", "failure_reasons": ["holdout_ddi_not_addressed"], "anti_cheat_reasons": ["holdout_ddi_not_addressed"], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8000, "policy": "basic_llm", "reward": 0.717, "latency_seconds": 0.0234, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "exploit_detection", "failure_reasons": ["holdout_ddi_not_addressed"], "anti_cheat_reasons": ["holdout_ddi_not_addressed"], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8000, "policy": "sft_policy", "reward": 0.803, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_02", "action_type": "STOP_DRUG", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.842, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.657, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.803}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.657, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8000, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 4.1357, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8001, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0013, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8001, "policy": "sft_policy", "reward": 0.755, "latency_seconds": 0.0011, "legal": true, "candidate_id": "cand_02", "action_type": "STOP_DRUG", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.518, "burden_improvement_score": 0.55, "disease_stability_score": 0.58, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.78, "primary_safety_legality": 0.944, "primary_clinical_improvement": 0.549, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.755}, "primary_reward_channels": {"safety_legality": 0.944, "clinical_improvement": 0.549, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8001, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0025, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8002, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0011, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8002, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0015, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8002, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 0.0024, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8003, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8003, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8003, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0022, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8004, "policy": "basic_llm", "reward": 0.717, "latency_seconds": 0.0013, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "exploit_detection", "failure_reasons": ["holdout_ddi_not_addressed"], "anti_cheat_reasons": ["holdout_ddi_not_addressed"], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.001, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.675, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.717}, "primary_reward_channels": {"safety_legality": 0.675, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
 {"seed": 8004, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8004, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 0.0021, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
-{"seed": 8005, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0015, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8005, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0014, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8005, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0023, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8004, "policy": "full_polyguard_pipeline", "reward": 0.804, "latency_seconds": 0.0024, "legal": true, "candidate_id": "cand_03", "action_type": "REDUCE_DOSE_BUCKET", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.87, "primary_safety_legality": 0.967, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.804}, "primary_reward_channels": {"safety_legality": 0.967, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8005, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8005, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8005, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0025, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
 {"seed": 8006, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
 {"seed": 8006, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0012, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
 {"seed": 8006, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0022, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
-{"seed": 8007, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0014, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8007, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0014, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
-{"seed": 8007, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0029, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
+{"seed": 8007, "policy": "basic_llm", "reward": 0.777, "latency_seconds": 0.0011, "legal": true, "candidate_id": "cand_01", "action_type": "KEEP_REGIMEN", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.7, "primary_safety_legality": 0.924, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.777}, "primary_reward_channels": {"safety_legality": 0.924, "clinical_improvement": 0.633, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8007, "policy": "sft_policy", "reward": 0.831, "latency_seconds": 0.0011, "legal": true, "candidate_id": "cand_04", "action_type": "SUBSTITUTE_WITHIN_CLASS", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.824, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.5, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.84, "primary_safety_legality": 0.959, "primary_clinical_improvement": 0.741, "primary_dosing_quality": 0.53, "primary_process_integrity": 0.894, "total_reward": 0.831}, "primary_reward_channels": {"safety_legality": 0.959, "clinical_improvement": 0.741, "dosing_quality": 0.53, "process_integrity": 0.894}}
+{"seed": 8007, "policy": "full_polyguard_pipeline", "reward": 0.806, "latency_seconds": 0.0024, "legal": true, "candidate_id": "cand_05", "action_type": "DOSE_HOLD", "termination_reason": "ongoing", "failure_reasons": [], "anti_cheat_reasons": [], "reward_breakdown": {"format_compliance_score": 0.999, "candidate_alignment_score": 0.999, "legality_score": 0.999, "safety_delta_score": 0.5, "burden_improvement_score": 0.5, "disease_stability_score": 0.9, "dosing_quality_score": 0.75, "abstention_quality_score": 0.56, "efficiency_score": 0.857, "process_fidelity_score": 0.92, "explanation_grounding_score": 0.8, "anti_cheat_score": 0.999, "uncertainty_calibration_score": 0.92, "primary_safety_legality": 0.979, "primary_clinical_improvement": 0.633, "primary_dosing_quality": 0.655, "primary_process_integrity": 0.894, "total_reward": 0.806}, "primary_reward_channels": {"safety_legality": 0.979, "clinical_improvement": 0.633, "dosing_quality": 0.655, "process_integrity": 0.894}}
diff --git a/docs/results/sweeps/qwen-qwen2-5-3b-instruct/grpo_history.json b/docs/results/sweeps/qwen-qwen2-5-3b-instruct/grpo_history.json
new file mode 100644
index 0000000000000000000000000000000000000000..23c0af97fc904ab4981b509b57116fba4289a289
--- /dev/null
+++ b/docs/results/sweeps/qwen-qwen2-5-3b-instruct/grpo_history.json
@@ -0,0 +1,50011 @@
+[
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0,
+    "learning_rate": 1e-06,
+    "num_tokens": 366.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.0,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0005,
+    "step": 1
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0,
+    "learning_rate": 9.995e-07,
+    "num_tokens": 732.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.0,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.001,
+    "step": 2
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8386753797531128,
+    "learning_rate": 9.989999999999999e-07,
+    "num_tokens": 1628.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0015,
+    "step": 3
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008644626359455287,
+    "learning_rate": 9.985e-07,
+    "num_tokens": 1994.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.515835851430893e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.002,
+    "step": 4
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.6266300678253174,
+    "learning_rate": 9.98e-07,
+    "num_tokens": 2890.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7999999523162842,
+    "rewards/environment_reward_verifier/std": 0.04949747025966644,
+    "reward": 0.7999999523162842,
+    "reward_std": 0.04949747025966644,
+    "kl": 1.1774711310863495e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0025,
+    "step": 5
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7592867612838745,
+    "learning_rate": 9.975e-07,
+    "num_tokens": 3786.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.082305192947388e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.003,
+    "step": 6
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013875153381377459,
+    "learning_rate": 9.97e-07,
+    "num_tokens": 4152.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.19076532125473e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0035,
+    "step": 7
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008181582088582218,
+    "learning_rate": 9.965e-07,
+    "num_tokens": 4518.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6560388505458832e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.004,
+    "step": 8
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7382595539093018,
+    "learning_rate": 9.959999999999999e-07,
+    "num_tokens": 5414.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 1.3813376426696777e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0045,
+    "step": 9
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9728567004203796,
+    "learning_rate": 9.955e-07,
+    "num_tokens": 6310.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.846500039100647,
+    "rewards/environment_reward_verifier/std": 0.014849219471216202,
+    "reward": 0.846500039100647,
+    "reward_std": 0.014849220402538776,
+    "kl": 5.137734115123749e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.005,
+    "step": 10
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.5461432337760925,
+    "learning_rate": 9.95e-07,
+    "num_tokens": 7206.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 1.668650656938553e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0055,
+    "step": 11
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001112893340177834,
+    "learning_rate": 9.945e-07,
+    "num_tokens": 7572.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.109647125005722e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.006,
+    "step": 12
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": NaN,
+    "learning_rate": 9.94e-07,
+    "num_tokens": 8468.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.0393170416355133e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0065,
+    "step": 13
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010866466909646988,
+    "learning_rate": 9.94e-07,
+    "num_tokens": 8834.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.441702574491501e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.007,
+    "step": 14
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001017165370285511,
+    "learning_rate": 9.935e-07,
+    "num_tokens": 9730.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.716303035616875e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0075,
+    "step": 15
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6911739706993103,
+    "learning_rate": 9.929999999999999e-07,
+    "num_tokens": 10626.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 1.7061829566955566e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.008,
+    "step": 16
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7382009029388428,
+    "learning_rate": 9.925e-07,
+    "num_tokens": 11522.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.824999988079071,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.824999988079071,
+    "reward_std": 0.011313731782138348,
+    "kl": 1.5362165868282318e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0085,
+    "step": 17
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": NaN,
+    "learning_rate": 9.92e-07,
+    "num_tokens": 12418.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 2.619996666908264e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.009,
+    "step": 18
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008886535069905221,
+    "learning_rate": 9.92e-07,
+    "num_tokens": 12784.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.30507755279541e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0095,
+    "step": 19
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7491036057472229,
+    "learning_rate": 9.915e-07,
+    "num_tokens": 13680.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 3.322027623653412e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.01,
+    "step": 20
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5928551554679871,
+    "learning_rate": 9.91e-07,
+    "num_tokens": 14576.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 2.601929008960724e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0105,
+    "step": 21
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005458745290525258,
+    "learning_rate": 9.905e-07,
+    "num_tokens": 15472.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.315826714038849e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.011,
+    "step": 22
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000569008057937026,
+    "learning_rate": 9.9e-07,
+    "num_tokens": 15838.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.1721236407756805e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0115,
+    "step": 23
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8848241567611694,
+    "learning_rate": 9.895e-07,
+    "num_tokens": 16734.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 2.0731240510940552e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.012,
+    "step": 24
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9575281143188477,
+    "learning_rate": 9.89e-07,
+    "num_tokens": 17630.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.5221146643161774e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0125,
+    "step": 25
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004248635668773204,
+    "learning_rate": 9.885e-07,
+    "num_tokens": 17996.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.887790858745575e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.013,
+    "step": 26
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009508877992630005,
+    "learning_rate": 9.88e-07,
+    "num_tokens": 18362.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8277747333049774e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0135,
+    "step": 27
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8627551198005676,
+    "learning_rate": 9.875e-07,
+    "num_tokens": 19258.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 5.311518907546997e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.014,
+    "step": 28
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009427251643501222,
+    "learning_rate": 9.87e-07,
+    "num_tokens": 20154.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2608786821365356e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0145,
+    "step": 29
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006769588799215853,
+    "learning_rate": 9.865e-07,
+    "num_tokens": 20520.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2307969629764557e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.015,
+    "step": 30
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7637265920639038,
+    "learning_rate": 9.86e-07,
+    "num_tokens": 21416.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 2.9818154871463776e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0155,
+    "step": 31
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008596409461461008,
+    "learning_rate": 9.855e-07,
+    "num_tokens": 22312.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7940000295639038,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7940000295639038,
+    "reward_std": 0.0,
+    "kl": 2.1715648472309113e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.016,
+    "step": 32
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013101330259814858,
+    "learning_rate": 9.849999999999999e-07,
+    "num_tokens": 22678.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.461260348558426e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0165,
+    "step": 33
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009030819055624306,
+    "learning_rate": 9.845e-07,
+    "num_tokens": 23044.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.9451755583286285e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.017,
+    "step": 34
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.14603713154792786,
+    "learning_rate": 9.84e-07,
+    "num_tokens": 23940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 0.0006279908120632172,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0175,
+    "step": 35
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9210644364356995,
+    "learning_rate": 9.835e-07,
+    "num_tokens": 24836.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.36403027176857e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.018,
+    "step": 36
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001894401852041483,
+    "learning_rate": 9.83e-07,
+    "num_tokens": 25202.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.968380719423294e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0185,
+    "step": 37
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002542809583246708,
+    "learning_rate": 9.825e-07,
+    "num_tokens": 25568.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.4018571972846985e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.019,
+    "step": 38
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009300168021582067,
+    "learning_rate": 9.819999999999999e-07,
+    "num_tokens": 25934.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.014877438545227e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0195,
+    "step": 39
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.601282000541687,
+    "learning_rate": 9.815e-07,
+    "num_tokens": 26830.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 1.4821067452430725e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.02,
+    "step": 40
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005840946105308831,
+    "learning_rate": 9.81e-07,
+    "num_tokens": 27726.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.229904592037201e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0205,
+    "step": 41
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8803837299346924,
+    "learning_rate": 9.805e-07,
+    "num_tokens": 28622.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.692414611577988e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.021,
+    "step": 42
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003636215114966035,
+    "learning_rate": 9.8e-07,
+    "num_tokens": 29518.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 5.9694983065128326e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0215,
+    "step": 43
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001083171577192843,
+    "learning_rate": 9.795e-07,
+    "num_tokens": 29884.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.22023406624794e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.022,
+    "step": 44
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0029561789706349373,
+    "learning_rate": 9.789999999999999e-07,
+    "num_tokens": 30250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5513581931591034e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0225,
+    "step": 45
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8178843259811401,
+    "learning_rate": 9.785e-07,
+    "num_tokens": 31146.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 2.0386651158332825e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.023,
+    "step": 46
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7111838459968567,
+    "learning_rate": 9.78e-07,
+    "num_tokens": 32042.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 1.805834472179413e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0235,
+    "step": 47
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020604038145393133,
+    "learning_rate": 9.775e-07,
+    "num_tokens": 32938.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.199426621198654e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.024,
+    "step": 48
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1733801364898682,
+    "learning_rate": 9.77e-07,
+    "num_tokens": 33834.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8790000081062317,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8790000081062317,
+    "reward_std": 0.0014141954015940428,
+    "kl": 2.4205073714256287e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0245,
+    "step": 49
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007422183407470584,
+    "learning_rate": 9.765e-07,
+    "num_tokens": 34200.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0121224224567413e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.025,
+    "step": 50
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.12367633730173111,
+    "learning_rate": 9.759999999999998e-07,
+    "num_tokens": 35096.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8349999785423279,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8349999785423279,
+    "reward_std": 0.0,
+    "kl": 0.00035975873470306396,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0255,
+    "step": 51
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1185871362686157,
+    "learning_rate": 9.755e-07,
+    "num_tokens": 35992.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.8584694266319275e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.026,
+    "step": 52
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": NaN,
+    "learning_rate": 9.75e-07,
+    "num_tokens": 36888.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0005854479968547821,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0265,
+    "step": 53
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010273786028847098,
+    "learning_rate": 9.75e-07,
+    "num_tokens": 37254.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.692973405122757e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.027,
+    "step": 54
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011759226908907294,
+    "learning_rate": 9.745e-07,
+    "num_tokens": 37620.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.308484494686127e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0275,
+    "step": 55
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007389633101411164,
+    "learning_rate": 9.74e-07,
+    "num_tokens": 37986.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.300366759300232e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.028,
+    "step": 56
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005277986056171358,
+    "learning_rate": 9.735e-07,
+    "num_tokens": 38882.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 1.1188909411430359e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0285,
+    "step": 57
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009752270416356623,
+    "learning_rate": 9.729999999999998e-07,
+    "num_tokens": 39778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 3.2201409339904785e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.029,
+    "step": 58
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002292782301083207,
+    "learning_rate": 9.725e-07,
+    "num_tokens": 40144.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.730653017759323e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0295,
+    "step": 59
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015361111145466566,
+    "learning_rate": 9.72e-07,
+    "num_tokens": 40510.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.377216100692749e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.03,
+    "step": 60
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001204590662382543,
+    "learning_rate": 9.715e-07,
+    "num_tokens": 40876.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9032118618488312e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0305,
+    "step": 61
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6760213971138,
+    "learning_rate": 9.709999999999999e-07,
+    "num_tokens": 41772.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.0381837822496891,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.0381837822496891,
+    "kl": 8.327886462211609e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.031,
+    "step": 62
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013389871455729008,
+    "learning_rate": 9.705e-07,
+    "num_tokens": 42668.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 3.366731107234955e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0315,
+    "step": 63
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007441174238920212,
+    "learning_rate": 9.7e-07,
+    "num_tokens": 43564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 9.872950613498688e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.032,
+    "step": 64
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5267499685287476,
+    "learning_rate": 9.695e-07,
+    "num_tokens": 44460.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 1.86040997505188e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0325,
+    "step": 65
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009887129999697208,
+    "learning_rate": 9.69e-07,
+    "num_tokens": 45356.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 4.1836872696876526e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.033,
+    "step": 66
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005825233645737171,
+    "learning_rate": 9.685e-07,
+    "num_tokens": 45722.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.702557533979416e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0335,
+    "step": 67
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005127235781401396,
+    "learning_rate": 9.679999999999999e-07,
+    "num_tokens": 46088.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.5092624127864838e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.034,
+    "step": 68
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001396226929500699,
+    "learning_rate": 9.675e-07,
+    "num_tokens": 46454.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.394686013460159e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0345,
+    "step": 69
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8930999636650085,
+    "learning_rate": 9.67e-07,
+    "num_tokens": 47350.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.071129322052002e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.035,
+    "step": 70
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.45665115118026733,
+    "learning_rate": 9.665e-07,
+    "num_tokens": 48246.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5920000076293945,
+    "rewards/environment_reward_verifier/std": 0.30122748017311096,
+    "reward": 0.5920000076293945,
+    "reward_std": 0.30122748017311096,
+    "kl": 1.1058524250984192e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0355,
+    "step": 71
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015513673424720764,
+    "learning_rate": 9.66e-07,
+    "num_tokens": 48612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.106216460466385e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.036,
+    "step": 72
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016105485847219825,
+    "learning_rate": 9.655e-07,
+    "num_tokens": 49508.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.196112811565399e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0365,
+    "step": 73
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.12389198690652847,
+    "learning_rate": 9.649999999999999e-07,
+    "num_tokens": 50404.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 0.0006226431578397751,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.037,
+    "step": 74
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000441992306150496,
+    "learning_rate": 9.645e-07,
+    "num_tokens": 51300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 1.2840144336223602e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0375,
+    "step": 75
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.583307147026062,
+    "learning_rate": 9.64e-07,
+    "num_tokens": 52196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 1.4536082744598389e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.038,
+    "step": 76
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5040392875671387,
+    "learning_rate": 9.635e-07,
+    "num_tokens": 53092.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 1.9342638552188873e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0385,
+    "step": 77
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007017228053882718,
+    "learning_rate": 9.63e-07,
+    "num_tokens": 53458.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.330223262310028e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.039,
+    "step": 78
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005833606119267642,
+    "learning_rate": 9.624999999999999e-07,
+    "num_tokens": 53824.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0285136997699738e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0395,
+    "step": 79
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016466780798509717,
+    "learning_rate": 9.619999999999999e-07,
+    "num_tokens": 54190.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3215077817440033e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.04,
+    "step": 80
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005939177935943007,
+    "learning_rate": 9.615e-07,
+    "num_tokens": 54556.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0177103579044342e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0405,
+    "step": 81
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015536571154370904,
+    "learning_rate": 9.61e-07,
+    "num_tokens": 55452.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 2.1132640540599823e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.041,
+    "step": 82
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010748868808150291,
+    "learning_rate": 9.605e-07,
+    "num_tokens": 56348.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.773959517478943e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0415,
+    "step": 83
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009355363436043262,
+    "learning_rate": 9.6e-07,
+    "num_tokens": 57244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 2.8561800718307495e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.042,
+    "step": 84
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005516069359146059,
+    "learning_rate": 9.594999999999999e-07,
+    "num_tokens": 58140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8349999785423279,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8349999785423279,
+    "reward_std": 0.0,
+    "kl": 1.7962418496608734e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0425,
+    "step": 85
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0018359065288677812,
+    "learning_rate": 9.589999999999998e-07,
+    "num_tokens": 58506.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.631614476442337e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.043,
+    "step": 86
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003975807689130306,
+    "learning_rate": 9.585e-07,
+    "num_tokens": 58872.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.361491978168488e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0435,
+    "step": 87
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010325579205527902,
+    "learning_rate": 9.58e-07,
+    "num_tokens": 59238.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.5804306864738464e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.044,
+    "step": 88
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6955918669700623,
+    "learning_rate": 9.575e-07,
+    "num_tokens": 60134.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 3.2967887818813324e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0445,
+    "step": 89
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.01571866311132908,
+    "learning_rate": 9.57e-07,
+    "num_tokens": 61030.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.341654807329178e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.045,
+    "step": 90
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019674592185765505,
+    "learning_rate": 9.565e-07,
+    "num_tokens": 61396.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.4650398194789886e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0455,
+    "step": 91
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00046162621583789587,
+    "learning_rate": 9.559999999999998e-07,
+    "num_tokens": 62292.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7433037757873535e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.046,
+    "step": 92
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9690912961959839,
+    "learning_rate": 9.555e-07,
+    "num_tokens": 63188.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.0381837822496891,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.0381837822496891,
+    "kl": 2.886541187763214e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0465,
+    "step": 93
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011616102419793606,
+    "learning_rate": 9.55e-07,
+    "num_tokens": 63554.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8302893042564392e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.047,
+    "step": 94
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010602263500913978,
+    "learning_rate": 9.545e-07,
+    "num_tokens": 63920.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.1570903956890106e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0475,
+    "step": 95
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9153140187263489,
+    "learning_rate": 9.539999999999999e-07,
+    "num_tokens": 64816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 6.788689643144608e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.048,
+    "step": 96
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.45417484641075134,
+    "learning_rate": 9.535e-07,
+    "num_tokens": 65712.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 1.2744218111038208e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0485,
+    "step": 97
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015867383917793632,
+    "learning_rate": 9.529999999999999e-07,
+    "num_tokens": 66078.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.906991332769394e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.049,
+    "step": 98
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007671258063055575,
+    "learning_rate": 9.525e-07,
+    "num_tokens": 66444.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7447007596492767e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0495,
+    "step": 99
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006462362944148481,
+    "learning_rate": 9.52e-07,
+    "num_tokens": 66810.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.849886029958725e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.05,
+    "step": 100
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.007701369468122721,
+    "learning_rate": 9.515e-07,
+    "num_tokens": 67176.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.422136306762695e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0505,
+    "step": 101
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6700197458267212,
+    "learning_rate": 9.509999999999999e-07,
+    "num_tokens": 68072.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.818368375301361e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.051,
+    "step": 102
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.66556453704834,
+    "learning_rate": 9.504999999999999e-07,
+    "num_tokens": 68968.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8345000147819519,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8345000147819519,
+    "reward_std": 0.030405579134821892,
+    "kl": 5.388539284467697e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0515,
+    "step": 103
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00044317645370028913,
+    "learning_rate": 9.499999999999999e-07,
+    "num_tokens": 69864.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 1.7177313566207886e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.052,
+    "step": 104
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.5687395334243774,
+    "learning_rate": 9.495e-07,
+    "num_tokens": 70760.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 1.3083219528198242e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0525,
+    "step": 105
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": NaN,
+    "learning_rate": 9.489999999999999e-07,
+    "num_tokens": 71656.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 0.0011830152943730354,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.053,
+    "step": 106
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.01510967593640089,
+    "learning_rate": 9.489999999999999e-07,
+    "num_tokens": 72552.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.878000020980835,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.878000020980835,
+    "reward_std": 0.0,
+    "kl": 9.882543236017227e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0535,
+    "step": 107
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004268075339496136,
+    "learning_rate": 9.485e-07,
+    "num_tokens": 72918.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.635075598955154e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.054,
+    "step": 108
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8328304886817932,
+    "learning_rate": 9.479999999999999e-07,
+    "num_tokens": 73814.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 2.2052787244319916e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0545,
+    "step": 109
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.728537380695343,
+    "learning_rate": 9.474999999999999e-07,
+    "num_tokens": 74710.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8174999952316284,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8174999952316284,
+    "reward_std": 0.014849262312054634,
+    "kl": 2.4109147489070892e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.055,
+    "step": 110
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9570010900497437,
+    "learning_rate": 9.469999999999999e-07,
+    "num_tokens": 75606.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8105000257492065,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8105000257492065,
+    "reward_std": 0.06434673070907593,
+    "kl": 4.696846008300781e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0555,
+    "step": 111
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002002199413254857,
+    "learning_rate": 9.465e-07,
+    "num_tokens": 75972.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.513189196586609e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.056,
+    "step": 112
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006786709418520331,
+    "learning_rate": 9.459999999999999e-07,
+    "num_tokens": 76868.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 2.574734389781952e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0565,
+    "step": 113
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.8540514707565308,
+    "learning_rate": 9.455e-07,
+    "num_tokens": 77764.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.012020829133689404,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.012020829133689404,
+    "kl": 2.0493753254413605e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.057,
+    "step": 114
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009922435274347663,
+    "learning_rate": 9.45e-07,
+    "num_tokens": 78130.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.318674862384796e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0575,
+    "step": 115
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007435118895955384,
+    "learning_rate": 9.444999999999999e-07,
+    "num_tokens": 79026.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.7647783756256104e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.058,
+    "step": 116
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00691739609465003,
+    "learning_rate": 9.439999999999999e-07,
+    "num_tokens": 79392.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.612468183040619e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0585,
+    "step": 117
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007686293101869524,
+    "learning_rate": 9.434999999999999e-07,
+    "num_tokens": 79758.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.6792677342891693e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.059,
+    "step": 118
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017928972374647856,
+    "learning_rate": 9.429999999999999e-07,
+    "num_tokens": 80124.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.409346729516983e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0595,
+    "step": 119
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005726952571421862,
+    "learning_rate": 9.425e-07,
+    "num_tokens": 81020.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 7.761642336845398e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.06,
+    "step": 120
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00040231458842754364,
+    "learning_rate": 9.419999999999999e-07,
+    "num_tokens": 81916.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 1.92299485206604e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0605,
+    "step": 121
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.852346658706665,
+    "learning_rate": 9.415e-07,
+    "num_tokens": 82812.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 1.8057413399219513e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.061,
+    "step": 122
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010437635937705636,
+    "learning_rate": 9.409999999999999e-07,
+    "num_tokens": 83708.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9762665033340454e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0615,
+    "step": 123
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": NaN,
+    "learning_rate": 9.404999999999999e-07,
+    "num_tokens": 84604.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.055154334753751755,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.055154334753751755,
+    "kl": 0.0007068756967782974,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.062,
+    "step": 124
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6010521650314331,
+    "learning_rate": 9.404999999999999e-07,
+    "num_tokens": 85500.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 1.6216188669204712e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0625,
+    "step": 125
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6753321886062622,
+    "learning_rate": 9.399999999999999e-07,
+    "num_tokens": 86396.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.6893801987171173e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.063,
+    "step": 126
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010537143098190427,
+    "learning_rate": 9.395e-07,
+    "num_tokens": 86762.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.888884723186493e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0635,
+    "step": 127
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5956679582595825,
+    "learning_rate": 9.389999999999999e-07,
+    "num_tokens": 87658.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.01555635966360569,
+    "kl": 6.039440631866455e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.064,
+    "step": 128
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013017355231568217,
+    "learning_rate": 9.385e-07,
+    "num_tokens": 88024.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.114024341106415e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0645,
+    "step": 129
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6261308789253235,
+    "learning_rate": 9.379999999999998e-07,
+    "num_tokens": 88920.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7904999852180481,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7904999852180481,
+    "reward_std": 0.037476640194654465,
+    "kl": 7.468275725841522e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.065,
+    "step": 130
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00029322251793928444,
+    "learning_rate": 9.374999999999999e-07,
+    "num_tokens": 89816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 1.0502524673938751e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0655,
+    "step": 131
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007472799625247717,
+    "learning_rate": 9.37e-07,
+    "num_tokens": 90182.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.8768012523651123e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.066,
+    "step": 132
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004956374177709222,
+    "learning_rate": 9.365e-07,
+    "num_tokens": 90548.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.917034387588501e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0665,
+    "step": 133
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000760928844101727,
+    "learning_rate": 9.36e-07,
+    "num_tokens": 90914.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.449060022830963e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.067,
+    "step": 134
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017298860475420952,
+    "learning_rate": 9.355e-07,
+    "num_tokens": 91280.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.187878221273422e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0675,
+    "step": 135
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9310314655303955,
+    "learning_rate": 9.35e-07,
+    "num_tokens": 92176.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.039597976952791214,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.039597976952791214,
+    "kl": 2.9511749744415283e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.068,
+    "step": 136
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5498940944671631,
+    "learning_rate": 9.344999999999999e-07,
+    "num_tokens": 93072.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 1.553259789943695e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0685,
+    "step": 137
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8820034265518188,
+    "learning_rate": 9.34e-07,
+    "num_tokens": 93968.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.5233253836631775e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.069,
+    "step": 138
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006268341676332057,
+    "learning_rate": 9.334999999999999e-07,
+    "num_tokens": 94334.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.2475218176841736e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0695,
+    "step": 139
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7416382431983948,
+    "learning_rate": 9.33e-07,
+    "num_tokens": 95230.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8240000009536743,
+    "rewards/environment_reward_verifier/std": 0.015556317754089832,
+    "reward": 0.8240000009536743,
+    "reward_std": 0.015556317754089832,
+    "kl": 2.3412518203258514e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.07,
+    "step": 140
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4844658374786377,
+    "learning_rate": 9.325e-07,
+    "num_tokens": 96126.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8339999914169312,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8339999914169312,
+    "reward_std": 0.0014141954015940428,
+    "kl": 7.013790309429169e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0705,
+    "step": 141
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8294029235839844,
+    "learning_rate": 9.32e-07,
+    "num_tokens": 97022.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8355000019073486,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8355000019073486,
+    "reward_std": 0.030405579134821892,
+    "kl": 1.283455640077591e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.071,
+    "step": 142
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005975551321171224,
+    "learning_rate": 9.315e-07,
+    "num_tokens": 97388.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9866973161697388e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0715,
+    "step": 143
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004532081075012684,
+    "learning_rate": 9.31e-07,
+    "num_tokens": 97754.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.086162567138672e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.072,
+    "step": 144
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003843473386950791,
+    "learning_rate": 9.304999999999999e-07,
+    "num_tokens": 98120.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.2605907917022705e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0725,
+    "step": 145
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0036340798251330853,
+    "learning_rate": 9.3e-07,
+    "num_tokens": 98486.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.931608706712723e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.073,
+    "step": 146
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00095866754418239,
+    "learning_rate": 9.295e-07,
+    "num_tokens": 98852.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.259442746639252e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0735,
+    "step": 147
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000992271350696683,
+    "learning_rate": 9.29e-07,
+    "num_tokens": 99218.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.275942385196686e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.074,
+    "step": 148
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008247334626503289,
+    "learning_rate": 9.285e-07,
+    "num_tokens": 99584.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.442727029323578e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0745,
+    "step": 149
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.611395537853241,
+    "learning_rate": 9.28e-07,
+    "num_tokens": 100480.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.016263457015156746,
+    "kl": 1.0479241609573364e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.075,
+    "step": 150
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008024791022762656,
+    "learning_rate": 9.274999999999999e-07,
+    "num_tokens": 100846.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.54213809967041e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0755,
+    "step": 151
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008570189820602536,
+    "learning_rate": 9.27e-07,
+    "num_tokens": 101212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.1021423637866974e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.076,
+    "step": 152
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 6.0001912117004395,
+    "learning_rate": 9.264999999999999e-07,
+    "num_tokens": 102108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8125,
+    "rewards/environment_reward_verifier/std": 0.01060659158974886,
+    "reward": 0.8125,
+    "reward_std": 0.01060659158974886,
+    "kl": 6.32014125585556e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0765,
+    "step": 153
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7252357602119446,
+    "learning_rate": 9.26e-07,
+    "num_tokens": 103004.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.2156164050102234e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.077,
+    "step": 154
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008979981648735702,
+    "learning_rate": 9.255e-07,
+    "num_tokens": 103370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.1005201637744904e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0775,
+    "step": 155
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010244681034237146,
+    "learning_rate": 9.25e-07,
+    "num_tokens": 103736.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.6143697798252106e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.078,
+    "step": 156
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7005264759063721,
+    "learning_rate": 9.244999999999999e-07,
+    "num_tokens": 104632.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5975000262260437,
+    "rewards/environment_reward_verifier/std": 0.3047630488872528,
+    "reward": 0.5975000262260437,
+    "reward_std": 0.3047630488872528,
+    "kl": 2.7914531528949738e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0785,
+    "step": 157
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6544285416603088,
+    "learning_rate": 9.24e-07,
+    "num_tokens": 105528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.729496479034424e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.079,
+    "step": 158
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5623617768287659,
+    "learning_rate": 9.234999999999999e-07,
+    "num_tokens": 106424.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8289999961853027,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8289999961853027,
+    "reward_std": 0.0014141954015940428,
+    "kl": 2.0192936062812805e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0795,
+    "step": 159
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007258378900587559,
+    "learning_rate": 9.23e-07,
+    "num_tokens": 107320.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.202896237373352e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.08,
+    "step": 160
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0027602105401456356,
+    "learning_rate": 9.225e-07,
+    "num_tokens": 108216.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 7.052719593048096e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0805,
+    "step": 161
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.73163241147995,
+    "learning_rate": 9.22e-07,
+    "num_tokens": 109112.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 2.2308900952339172e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.081,
+    "step": 162
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011337499599903822,
+    "learning_rate": 9.215e-07,
+    "num_tokens": 109478.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.859695374965668e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0815,
+    "step": 163
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000912423012778163,
+    "learning_rate": 9.21e-07,
+    "num_tokens": 109844.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.218837082386017e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.082,
+    "step": 164
+  },
+  {
+    "loss": 0.0002,
+    "grad_norm": 8.715468406677246,
+    "learning_rate": 9.204999999999999e-07,
+    "num_tokens": 110740.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.004041045904159546,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0825,
+    "step": 165
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9052450656890869,
+    "learning_rate": 9.2e-07,
+    "num_tokens": 111636.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.215965211391449e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.083,
+    "step": 166
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003241814556531608,
+    "learning_rate": 9.194999999999999e-07,
+    "num_tokens": 112002.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.0592862963676453e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0835,
+    "step": 167
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2795896530151367,
+    "learning_rate": 9.19e-07,
+    "num_tokens": 112898.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 7.838010787963867e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.084,
+    "step": 168
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004557027714326978,
+    "learning_rate": 9.185e-07,
+    "num_tokens": 113794.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8230000138282776,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8230000138282776,
+    "reward_std": 0.0,
+    "kl": 2.0915642380714417e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0845,
+    "step": 169
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7115015387535095,
+    "learning_rate": 9.18e-07,
+    "num_tokens": 114690.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 3.168080002069473e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.085,
+    "step": 170
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009462831658311188,
+    "learning_rate": 9.174999999999999e-07,
+    "num_tokens": 115056.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.907550126314163e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0855,
+    "step": 171
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008878710796125233,
+    "learning_rate": 9.17e-07,
+    "num_tokens": 115422.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.062335938215256e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.086,
+    "step": 172
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8355982303619385,
+    "learning_rate": 9.164999999999999e-07,
+    "num_tokens": 116318.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 2.7638860046863556e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0865,
+    "step": 173
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008515037479810417,
+    "learning_rate": 9.16e-07,
+    "num_tokens": 116684.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.111641854047775e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.087,
+    "step": 174
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000702428980730474,
+    "learning_rate": 9.155e-07,
+    "num_tokens": 117580.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6394613087177277e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0875,
+    "step": 175
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007754422258585691,
+    "learning_rate": 9.15e-07,
+    "num_tokens": 118476.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 3.0298717319965363e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.088,
+    "step": 176
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7931095361709595,
+    "learning_rate": 9.145e-07,
+    "num_tokens": 119372.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.3398548364639282e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0885,
+    "step": 177
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012435466051101685,
+    "learning_rate": 9.14e-07,
+    "num_tokens": 120268.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.037097096443176e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.089,
+    "step": 178
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008868267759680748,
+    "learning_rate": 9.134999999999999e-07,
+    "num_tokens": 120634.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6998110115528107e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0895,
+    "step": 179
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7282891273498535,
+    "learning_rate": 9.13e-07,
+    "num_tokens": 121530.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.5174580514431e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.09,
+    "step": 180
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7231186628341675,
+    "learning_rate": 9.124999999999999e-07,
+    "num_tokens": 122426.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 1.848861575126648e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0905,
+    "step": 181
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001117244246415794,
+    "learning_rate": 9.12e-07,
+    "num_tokens": 122792.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.138743340969086e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.091,
+    "step": 182
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006556922453455627,
+    "learning_rate": 9.115e-07,
+    "num_tokens": 123688.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9136816263198853e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0915,
+    "step": 183
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000802351045422256,
+    "learning_rate": 9.109999999999999e-07,
+    "num_tokens": 124054.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.238752156496048e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.092,
+    "step": 184
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006063154432922602,
+    "learning_rate": 9.104999999999999e-07,
+    "num_tokens": 124420.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.0485371351242065e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0925,
+    "step": 185
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7436572313308716,
+    "learning_rate": 9.1e-07,
+    "num_tokens": 125316.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.107769250869751e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.093,
+    "step": 186
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014243351761251688,
+    "learning_rate": 9.094999999999999e-07,
+    "num_tokens": 126212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.3363310396671295e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0935,
+    "step": 187
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009731510654091835,
+    "learning_rate": 9.09e-07,
+    "num_tokens": 127108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 2.2524036467075348e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.094,
+    "step": 188
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008247564546763897,
+    "learning_rate": 9.085e-07,
+    "num_tokens": 127474.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.4750828742980957e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0945,
+    "step": 189
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.898916482925415,
+    "learning_rate": 9.08e-07,
+    "num_tokens": 128370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.03111271932721138,
+    "reward": 0.828000009059906,
+    "reward_std": 0.03111271932721138,
+    "kl": 2.9124319553375244e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.095,
+    "step": 190
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0022594723850488663,
+    "learning_rate": 9.074999999999999e-07,
+    "num_tokens": 128736.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.931740790605545e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0955,
+    "step": 191
+  },
+  {
+    "loss": 0.0002,
+    "grad_norm": 0.3122554123401642,
+    "learning_rate": 9.07e-07,
+    "num_tokens": 129632.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 0.005375564098358154,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.096,
+    "step": 192
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7383635640144348,
+    "learning_rate": 9.064999999999999e-07,
+    "num_tokens": 130528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 1.7085112631320953e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0965,
+    "step": 193
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009169039549306035,
+    "learning_rate": 9.06e-07,
+    "num_tokens": 130894.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7499161660671234e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.097,
+    "step": 194
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002207833109423518,
+    "learning_rate": 9.055e-07,
+    "num_tokens": 131790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 5.058012902736664e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0975,
+    "step": 195
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013476760359480977,
+    "learning_rate": 9.05e-07,
+    "num_tokens": 132156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.07582488656044e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.098,
+    "step": 196
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009443381568416953,
+    "learning_rate": 9.045e-07,
+    "num_tokens": 132522.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.524923861026764e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0985,
+    "step": 197
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008005110430531204,
+    "learning_rate": 9.039999999999999e-07,
+    "num_tokens": 133418.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.380049020051956e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.099,
+    "step": 198
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011344518279656768,
+    "learning_rate": 9.034999999999999e-07,
+    "num_tokens": 134314.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.630202263593674e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.0995,
+    "step": 199
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.124922513961792,
+    "learning_rate": 9.03e-07,
+    "num_tokens": 135210.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 2.403371036052704e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1,
+    "step": 200
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.010462634265422821,
+    "learning_rate": 9.024999999999999e-07,
+    "num_tokens": 135576.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.151548147201538e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1005,
+    "step": 201
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4031621813774109,
+    "learning_rate": 9.02e-07,
+    "num_tokens": 136472.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 7.29784369468689e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.101,
+    "step": 202
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1457958221435547,
+    "learning_rate": 9.015e-07,
+    "num_tokens": 137368.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8125,
+    "rewards/environment_reward_verifier/std": 0.01060659158974886,
+    "reward": 0.8125,
+    "reward_std": 0.01060659158974886,
+    "kl": 7.96811655163765e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1015,
+    "step": 203
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.8547003865242004,
+    "learning_rate": 9.01e-07,
+    "num_tokens": 138264.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7669999599456787,
+    "rewards/environment_reward_verifier/std": 0.00424262834712863,
+    "reward": 0.7669999599456787,
+    "reward_std": 0.00424262834712863,
+    "kl": 4.733167588710785e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.102,
+    "step": 204
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010702295694500208,
+    "learning_rate": 9.004999999999999e-07,
+    "num_tokens": 139160.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8516165912151337e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1025,
+    "step": 205
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010671066120266914,
+    "learning_rate": 9e-07,
+    "num_tokens": 140056.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 2.7094967663288116e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.103,
+    "step": 206
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6986727714538574,
+    "learning_rate": 8.994999999999999e-07,
+    "num_tokens": 140952.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 2.9342249035835266e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1035,
+    "step": 207
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.793999433517456,
+    "learning_rate": 8.99e-07,
+    "num_tokens": 141848.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8004999756813049,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.8004999756813049,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.9208138585090637e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.104,
+    "step": 208
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8776720762252808,
+    "learning_rate": 8.985e-07,
+    "num_tokens": 142744.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.694409340620041e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1045,
+    "step": 209
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8799023628234863,
+    "learning_rate": 8.98e-07,
+    "num_tokens": 143640.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 3.313366323709488e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.105,
+    "step": 210
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004170483734924346,
+    "learning_rate": 8.974999999999999e-07,
+    "num_tokens": 144536.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2648833692073822e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1055,
+    "step": 211
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001837296411395073,
+    "learning_rate": 8.969999999999999e-07,
+    "num_tokens": 144902.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6456080377101898e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.106,
+    "step": 212
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008451686589978635,
+    "learning_rate": 8.964999999999999e-07,
+    "num_tokens": 145268.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.107171505689621e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1065,
+    "step": 213
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0017951726913452,
+    "learning_rate": 8.96e-07,
+    "num_tokens": 146164.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 2.7408823370933533e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.107,
+    "step": 214
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8755594491958618,
+    "learning_rate": 8.954999999999999e-07,
+    "num_tokens": 147060.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.390146255493164e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1075,
+    "step": 215
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005800517974421382,
+    "learning_rate": 8.95e-07,
+    "num_tokens": 147426.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.6012229025363922e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.108,
+    "step": 216
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007062573567964137,
+    "learning_rate": 8.945e-07,
+    "num_tokens": 147792.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.4564174711704254e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1085,
+    "step": 217
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003949970938265324,
+    "learning_rate": 8.939999999999999e-07,
+    "num_tokens": 148688.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.277564585208893e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.109,
+    "step": 218
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004211249761283398,
+    "learning_rate": 8.934999999999999e-07,
+    "num_tokens": 149054.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 0.00011921580880880356,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1095,
+    "step": 219
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019470448605716228,
+    "learning_rate": 8.93e-07,
+    "num_tokens": 149420.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.409812390804291e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.11,
+    "step": 220
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001696808380074799,
+    "learning_rate": 8.924999999999999e-07,
+    "num_tokens": 150316.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.481617361307144e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1105,
+    "step": 221
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008031058823689818,
+    "learning_rate": 8.92e-07,
+    "num_tokens": 150682.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.823770046234131e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.111,
+    "step": 222
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005426830030046403,
+    "learning_rate": 8.915e-07,
+    "num_tokens": 151048.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 8.190050721168518e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1115,
+    "step": 223
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7660623788833618,
+    "learning_rate": 8.91e-07,
+    "num_tokens": 151944.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8400000333786011,
+    "rewards/environment_reward_verifier/std": 0.056568533182144165,
+    "reward": 0.8400000333786011,
+    "reward_std": 0.056568533182144165,
+    "kl": 2.423767000436783e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.112,
+    "step": 224
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00114248541649431,
+    "learning_rate": 8.904999999999999e-07,
+    "num_tokens": 152310.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.911981523036957e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1125,
+    "step": 225
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010189404711127281,
+    "learning_rate": 8.9e-07,
+    "num_tokens": 153206.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7940000295639038,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7940000295639038,
+    "reward_std": 0.0,
+    "kl": 3.969017416238785e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.113,
+    "step": 226
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009496210259385407,
+    "learning_rate": 8.894999999999999e-07,
+    "num_tokens": 154102.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 3.453809767961502e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1135,
+    "step": 227
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009968357626348734,
+    "learning_rate": 8.89e-07,
+    "num_tokens": 154468.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.2302771210670471e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.114,
+    "step": 228
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009216134203597903,
+    "learning_rate": 8.884999999999999e-07,
+    "num_tokens": 154834.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4216249585151672e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1145,
+    "step": 229
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013800781453028321,
+    "learning_rate": 8.88e-07,
+    "num_tokens": 155200.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.5048614740371704e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.115,
+    "step": 230
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004977535456418991,
+    "learning_rate": 8.874999999999999e-07,
+    "num_tokens": 155566.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.366932600736618e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1155,
+    "step": 231
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6765887141227722,
+    "learning_rate": 8.869999999999999e-07,
+    "num_tokens": 156462.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8345000147819519,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8345000147819519,
+    "reward_std": 0.030405579134821892,
+    "kl": 2.278340980410576e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.116,
+    "step": 232
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009554218268021941,
+    "learning_rate": 8.864999999999999e-07,
+    "num_tokens": 156828.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.304945468902588e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1165,
+    "step": 233
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004711175861302763,
+    "learning_rate": 8.86e-07,
+    "num_tokens": 157724.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8140000104904175,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8140000104904175,
+    "reward_std": 0.0,
+    "kl": 2.018176019191742e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.117,
+    "step": 234
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7974148392677307,
+    "learning_rate": 8.854999999999999e-07,
+    "num_tokens": 158620.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.5554712414741516e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1175,
+    "step": 235
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7260931730270386,
+    "learning_rate": 8.85e-07,
+    "num_tokens": 159516.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 7.259659469127655e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.118,
+    "step": 236
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6996958255767822,
+    "learning_rate": 8.845e-07,
+    "num_tokens": 160412.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.2821128368377686e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1185,
+    "step": 237
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004671283531934023,
+    "learning_rate": 8.839999999999999e-07,
+    "num_tokens": 160778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.2873045206069946e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.119,
+    "step": 238
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009693849133327603,
+    "learning_rate": 8.834999999999999e-07,
+    "num_tokens": 161144.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.379303961992264e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1195,
+    "step": 239
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009250525617972016,
+    "learning_rate": 8.83e-07,
+    "num_tokens": 161510.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.9317645132541656e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.12,
+    "step": 240
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.650233805179596,
+    "learning_rate": 8.824999999999999e-07,
+    "num_tokens": 162406.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 1.8423423171043396e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1205,
+    "step": 241
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7992975115776062,
+    "learning_rate": 8.82e-07,
+    "num_tokens": 163302.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8105000257492065,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8105000257492065,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.829877823591232e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.121,
+    "step": 242
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9677534699440002,
+    "learning_rate": 8.814999999999999e-07,
+    "num_tokens": 164198.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.436487168073654e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1215,
+    "step": 243
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007884668302722275,
+    "learning_rate": 8.81e-07,
+    "num_tokens": 165094.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 2.169981598854065e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.122,
+    "step": 244
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000979329226538539,
+    "learning_rate": 8.804999999999999e-07,
+    "num_tokens": 165460.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.646461457014084e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1225,
+    "step": 245
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006126004736870527,
+    "learning_rate": 8.799999999999999e-07,
+    "num_tokens": 166356.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 3.476254642009735e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.123,
+    "step": 246
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011434931075200438,
+    "learning_rate": 8.794999999999999e-07,
+    "num_tokens": 166722.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.4108910262584686e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1235,
+    "step": 247
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 5.088333606719971,
+    "learning_rate": 8.79e-07,
+    "num_tokens": 167618.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 0.0014105839654803276,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.124,
+    "step": 248
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8565078973770142,
+    "learning_rate": 8.784999999999999e-07,
+    "num_tokens": 168514.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8144999742507935,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8144999742507935,
+    "reward_std": 0.0035355305299162865,
+    "kl": 4.782341420650482e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1245,
+    "step": 249
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7004273533821106,
+    "learning_rate": 8.78e-07,
+    "num_tokens": 169410.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.045254841446876526,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.045254841446876526,
+    "kl": 1.3789162039756775e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.125,
+    "step": 250
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0018229980487376451,
+    "learning_rate": 8.774999999999999e-07,
+    "num_tokens": 169776.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.895271897315979e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1255,
+    "step": 251
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001281239208765328,
+    "learning_rate": 8.769999999999999e-07,
+    "num_tokens": 170142.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.564210444688797e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.126,
+    "step": 252
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001548050669953227,
+    "learning_rate": 8.764999999999999e-07,
+    "num_tokens": 170508.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.354771226644516e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1265,
+    "step": 253
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6451208591461182,
+    "learning_rate": 8.76e-07,
+    "num_tokens": 171404.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 5.1419250667095184e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.127,
+    "step": 254
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8378592729568481,
+    "learning_rate": 8.754999999999999e-07,
+    "num_tokens": 172300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 2.724677324295044e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1275,
+    "step": 255
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000880461884662509,
+    "learning_rate": 8.75e-07,
+    "num_tokens": 172666.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9389746487140656e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.128,
+    "step": 256
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8155960440635681,
+    "learning_rate": 8.745000000000001e-07,
+    "num_tokens": 173562.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.646407276391983e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1285,
+    "step": 257
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.756582260131836,
+    "learning_rate": 8.739999999999999e-07,
+    "num_tokens": 174458.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0011248448863625526,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.129,
+    "step": 258
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006294223130680621,
+    "learning_rate": 8.735e-07,
+    "num_tokens": 174824.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4514272809028625e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1295,
+    "step": 259
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005847606807947159,
+    "learning_rate": 8.729999999999999e-07,
+    "num_tokens": 175720.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 3.0250288546085358e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.13,
+    "step": 260
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006465958897024393,
+    "learning_rate": 8.725e-07,
+    "num_tokens": 176086.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.9011392295360565e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1305,
+    "step": 261
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006706174463033676,
+    "learning_rate": 8.72e-07,
+    "num_tokens": 176452.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6035122573375702e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.131,
+    "step": 262
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0024853611830621958,
+    "learning_rate": 8.715e-07,
+    "num_tokens": 177348.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.193271398544312e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1315,
+    "step": 263
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.990795373916626,
+    "learning_rate": 8.71e-07,
+    "num_tokens": 178244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00011088699102401733,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.132,
+    "step": 264
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6023589968681335,
+    "learning_rate": 8.705e-07,
+    "num_tokens": 179140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8100000023841858,
+    "rewards/environment_reward_verifier/std": 0.014142122119665146,
+    "reward": 0.8100000023841858,
+    "reward_std": 0.014142122119665146,
+    "kl": 2.4791806936264038e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1325,
+    "step": 265
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006478002178482711,
+    "learning_rate": 8.699999999999999e-07,
+    "num_tokens": 180036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 3.0393246561288834e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.133,
+    "step": 266
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003633753804024309,
+    "learning_rate": 8.695e-07,
+    "num_tokens": 180932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 1.7292797565460205e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1335,
+    "step": 267
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009483444155193865,
+    "learning_rate": 8.69e-07,
+    "num_tokens": 181298.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.2349489629268646e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.134,
+    "step": 268
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001294833142310381,
+    "learning_rate": 8.685e-07,
+    "num_tokens": 182194.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 4.401896148920059e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1345,
+    "step": 269
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9378226399421692,
+    "learning_rate": 8.68e-07,
+    "num_tokens": 183090.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6110000014305115,
+    "rewards/environment_reward_verifier/std": 0.32809752225875854,
+    "reward": 0.6110000014305115,
+    "reward_std": 0.32809752225875854,
+    "kl": 4.177261143922806e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.135,
+    "step": 270
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011398299830034375,
+    "learning_rate": 8.675000000000001e-07,
+    "num_tokens": 183456.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9952265322208405e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1355,
+    "step": 271
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7210366725921631,
+    "learning_rate": 8.669999999999999e-07,
+    "num_tokens": 184352.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8004999756813049,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.8004999756813049,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.8699636459350586e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.136,
+    "step": 272
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0038134672213345766,
+    "learning_rate": 8.665e-07,
+    "num_tokens": 185248.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 7.503852248191833e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1365,
+    "step": 273
+  },
+  {
+    "loss": 0.0004,
+    "grad_norm": 4.846627712249756,
+    "learning_rate": 8.659999999999999e-07,
+    "num_tokens": 186144.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.010152775794267654,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.137,
+    "step": 274
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009844097075983882,
+    "learning_rate": 8.655e-07,
+    "num_tokens": 187040.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 2.0081177353858948e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1375,
+    "step": 275
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000961087818723172,
+    "learning_rate": 8.65e-07,
+    "num_tokens": 187406.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8001144528388977e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.138,
+    "step": 276
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7714813947677612,
+    "learning_rate": 8.645e-07,
+    "num_tokens": 188302.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7940000295639038,
+    "rewards/environment_reward_verifier/std": 0.04949747025966644,
+    "reward": 0.7940000295639038,
+    "reward_std": 0.04949747025966644,
+    "kl": 4.729442298412323e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1385,
+    "step": 277
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010638447711244226,
+    "learning_rate": 8.639999999999999e-07,
+    "num_tokens": 188668.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.445947706699371e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.139,
+    "step": 278
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00015246507246047258,
+    "learning_rate": 8.635e-07,
+    "num_tokens": 189564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 5.039386451244354e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1395,
+    "step": 279
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011137727415189147,
+    "learning_rate": 8.629999999999999e-07,
+    "num_tokens": 190460.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.1976960599422455e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.14,
+    "step": 280
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009709048317745328,
+    "learning_rate": 8.625e-07,
+    "num_tokens": 191356.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4955254048109055e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1405,
+    "step": 281
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.3368643522262573,
+    "learning_rate": 8.62e-07,
+    "num_tokens": 192252.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 0.00012401491403579712,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.141,
+    "step": 282
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008055974612943828,
+    "learning_rate": 8.615e-07,
+    "num_tokens": 192618.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.564862370491028e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1415,
+    "step": 283
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8562883734703064,
+    "learning_rate": 8.61e-07,
+    "num_tokens": 193514.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5985000133514404,
+    "rewards/environment_reward_verifier/std": 0.3047630488872528,
+    "reward": 0.5985000133514404,
+    "reward_std": 0.3047630488872528,
+    "kl": 2.085510641336441e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.142,
+    "step": 284
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013000740436837077,
+    "learning_rate": 8.605e-07,
+    "num_tokens": 193880.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.2595206499099731e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1425,
+    "step": 285
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014716209843754768,
+    "learning_rate": 8.599999999999999e-07,
+    "num_tokens": 194246.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.012588083744049e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.143,
+    "step": 286
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6238701343536377,
+    "learning_rate": 8.595e-07,
+    "num_tokens": 195142.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 3.501400351524353e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1435,
+    "step": 287
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7292160987854004,
+    "learning_rate": 8.59e-07,
+    "num_tokens": 196038.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 3.310106694698334e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.144,
+    "step": 288
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2664096355438232,
+    "learning_rate": 8.585e-07,
+    "num_tokens": 196934.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 7.172953337430954e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1445,
+    "step": 289
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011152090737596154,
+    "learning_rate": 8.58e-07,
+    "num_tokens": 197300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.239380359649658e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.145,
+    "step": 290
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012550086248666048,
+    "learning_rate": 8.575e-07,
+    "num_tokens": 198196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 3.109592944383621e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1455,
+    "step": 291
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001699145999737084,
+    "learning_rate": 8.569999999999999e-07,
+    "num_tokens": 198562.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.172844976186752e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.146,
+    "step": 292
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014436126220971346,
+    "learning_rate": 8.565e-07,
+    "num_tokens": 199458.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 2.7905218303203583e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1465,
+    "step": 293
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.060386300086975,
+    "learning_rate": 8.559999999999999e-07,
+    "num_tokens": 200354.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 2.4184584617614746e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.147,
+    "step": 294
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.5308566093444824,
+    "learning_rate": 8.555e-07,
+    "num_tokens": 201250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0004968792200088501,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1475,
+    "step": 295
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.01867598481476307,
+    "learning_rate": 8.55e-07,
+    "num_tokens": 202146.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 0.0007902001962065697,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.148,
+    "step": 296
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.676836371421814,
+    "learning_rate": 8.545e-07,
+    "num_tokens": 203042.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5659999847412109,
+    "rewards/environment_reward_verifier/std": 0.26304370164871216,
+    "reward": 0.5659999847412109,
+    "reward_std": 0.26304370164871216,
+    "kl": 2.4565495550632477e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1485,
+    "step": 297
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000486809789435938,
+    "learning_rate": 8.539999999999999e-07,
+    "num_tokens": 203938.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 1.8110498785972595e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.149,
+    "step": 298
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 6.314117431640625,
+    "learning_rate": 8.535e-07,
+    "num_tokens": 204834.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 0.000560510903596878,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1495,
+    "step": 299
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016245761653408408,
+    "learning_rate": 8.529999999999999e-07,
+    "num_tokens": 205730.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.596170037984848e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.15,
+    "step": 300
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 4.8842644691467285,
+    "learning_rate": 8.525e-07,
+    "num_tokens": 206626.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0012828148901462555,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1505,
+    "step": 301
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6496160626411438,
+    "learning_rate": 8.52e-07,
+    "num_tokens": 207522.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 1.8990598618984222e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.151,
+    "step": 302
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2166204452514648,
+    "learning_rate": 8.515e-07,
+    "num_tokens": 208418.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 4.263874143362045e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1515,
+    "step": 303
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6483629941940308,
+    "learning_rate": 8.51e-07,
+    "num_tokens": 209314.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.642868250608444e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.152,
+    "step": 304
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.08719047904014587,
+    "learning_rate": 8.504999999999999e-07,
+    "num_tokens": 210210.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00048297271132469177,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1525,
+    "step": 305
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009118872112594545,
+    "learning_rate": 8.499999999999999e-07,
+    "num_tokens": 211106.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 3.436300903558731e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.153,
+    "step": 306
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000776519300416112,
+    "learning_rate": 8.495e-07,
+    "num_tokens": 212002.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.836909309029579e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1535,
+    "step": 307
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004030209092888981,
+    "learning_rate": 8.489999999999999e-07,
+    "num_tokens": 212898.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 1.1263415217399597e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.154,
+    "step": 308
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021231588907539845,
+    "learning_rate": 8.485e-07,
+    "num_tokens": 213264.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.808364272117615e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1545,
+    "step": 309
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010731469374150038,
+    "learning_rate": 8.48e-07,
+    "num_tokens": 213630.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.3443793654441833e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.155,
+    "step": 310
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.3191975355148315,
+    "learning_rate": 8.475e-07,
+    "num_tokens": 214526.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8109999895095825,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8109999895095825,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0001062760129570961,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1555,
+    "step": 311
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009143484639935195,
+    "learning_rate": 8.469999999999999e-07,
+    "num_tokens": 214892.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7162954211235046e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.156,
+    "step": 312
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008549138437956572,
+    "learning_rate": 8.465e-07,
+    "num_tokens": 215258.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.628060221672058e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1565,
+    "step": 313
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8807721138000488,
+    "learning_rate": 8.459999999999999e-07,
+    "num_tokens": 216154.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 3.3076852560043335e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.157,
+    "step": 314
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011269906535744667,
+    "learning_rate": 8.455e-07,
+    "num_tokens": 216520.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.0779042541980743e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1575,
+    "step": 315
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009529910748824477,
+    "learning_rate": 8.45e-07,
+    "num_tokens": 216886.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9197894036769867e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.158,
+    "step": 316
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5073452591896057,
+    "learning_rate": 8.445e-07,
+    "num_tokens": 217782.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 1.5504658222198486e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1585,
+    "step": 317
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6745843887329102,
+    "learning_rate": 8.439999999999999e-07,
+    "num_tokens": 218678.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 2.916809171438217e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.159,
+    "step": 318
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.83416348695755,
+    "learning_rate": 8.435e-07,
+    "num_tokens": 219574.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.966502845287323e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1595,
+    "step": 319
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005657601868733764,
+    "learning_rate": 8.429999999999999e-07,
+    "num_tokens": 219940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.7073936760425568e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.16,
+    "step": 320
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019271780038252473,
+    "learning_rate": 8.425e-07,
+    "num_tokens": 220306.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.132891237735748e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1605,
+    "step": 321
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7732903957366943,
+    "learning_rate": 8.419999999999999e-07,
+    "num_tokens": 221202.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 2.4759210646152496e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.161,
+    "step": 322
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4706270098686218,
+    "learning_rate": 8.415e-07,
+    "num_tokens": 222098.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 1.8648803234100342e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1615,
+    "step": 323
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9665089249610901,
+    "learning_rate": 8.41e-07,
+    "num_tokens": 222994.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.0028283908031880856,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.0028283908031880856,
+    "kl": 6.84782862663269e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.162,
+    "step": 324
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7919329404830933,
+    "learning_rate": 8.404999999999999e-07,
+    "num_tokens": 223890.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.011313731782138348,
+    "kl": 2.195313572883606e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1625,
+    "step": 325
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.768720269203186,
+    "learning_rate": 8.399999999999999e-07,
+    "num_tokens": 224786.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 4.016607999801636e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.163,
+    "step": 326
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0923116207122803,
+    "learning_rate": 8.395e-07,
+    "num_tokens": 225682.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 6.390083581209183e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1635,
+    "step": 327
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8083785772323608,
+    "learning_rate": 8.389999999999999e-07,
+    "num_tokens": 226578.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.3585744202136993e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.164,
+    "step": 328
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8358509540557861,
+    "learning_rate": 8.385e-07,
+    "num_tokens": 227474.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.7976930141448975e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1645,
+    "step": 329
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002556774066761136,
+    "learning_rate": 8.38e-07,
+    "num_tokens": 228370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 6.252247840166092e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.165,
+    "step": 330
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011076935334131122,
+    "learning_rate": 8.375e-07,
+    "num_tokens": 228736.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.133954644203186e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1655,
+    "step": 331
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8899944424629211,
+    "learning_rate": 8.369999999999999e-07,
+    "num_tokens": 229632.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 3.0472874641418457e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.166,
+    "step": 332
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005512312054634094,
+    "learning_rate": 8.365e-07,
+    "num_tokens": 230528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 1.4659948647022247e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1665,
+    "step": 333
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0276963710784912,
+    "learning_rate": 8.359999999999999e-07,
+    "num_tokens": 231424.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8019999861717224,
+    "rewards/environment_reward_verifier/std": 0.05091170594096184,
+    "reward": 0.8019999861717224,
+    "reward_std": 0.05091170594096184,
+    "kl": 5.741789937019348e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.167,
+    "step": 334
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006771369371563196,
+    "learning_rate": 8.355e-07,
+    "num_tokens": 231790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.835450530052185e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1675,
+    "step": 335
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005562920588999987,
+    "learning_rate": 8.349999999999999e-07,
+    "num_tokens": 232156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00012410897761583328,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.168,
+    "step": 336
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008655060082674026,
+    "learning_rate": 8.345e-07,
+    "num_tokens": 233052.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.971423625946045e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1685,
+    "step": 337
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011268710950389504,
+    "learning_rate": 8.34e-07,
+    "num_tokens": 233418.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.94646418094635e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.169,
+    "step": 338
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010772187961265445,
+    "learning_rate": 8.334999999999999e-07,
+    "num_tokens": 234314.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 3.5460107028484344e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1695,
+    "step": 339
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008576549007557333,
+    "learning_rate": 8.329999999999999e-07,
+    "num_tokens": 235210.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.149647429585457e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.17,
+    "step": 340
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.0028762817382812,
+    "learning_rate": 8.325e-07,
+    "num_tokens": 236106.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0004530055448412895,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1705,
+    "step": 341
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.707438588142395,
+    "learning_rate": 8.319999999999999e-07,
+    "num_tokens": 237002.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 2.5334767997264862e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.171,
+    "step": 342
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001074684434570372,
+    "learning_rate": 8.315e-07,
+    "num_tokens": 237368.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.078673034906387e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1715,
+    "step": 343
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007710942882113159,
+    "learning_rate": 8.31e-07,
+    "num_tokens": 237734.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.07280570268631e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.172,
+    "step": 344
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015255279140546918,
+    "learning_rate": 8.304999999999999e-07,
+    "num_tokens": 238100.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6513822376728058e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1725,
+    "step": 345
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001760940533131361,
+    "learning_rate": 8.299999999999999e-07,
+    "num_tokens": 238466.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.8121437430381775e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.173,
+    "step": 346
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5609378814697266,
+    "learning_rate": 8.295e-07,
+    "num_tokens": 239362.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7999999523162842,
+    "rewards/environment_reward_verifier/std": 0.04949747025966644,
+    "reward": 0.7999999523162842,
+    "reward_std": 0.04949747025966644,
+    "kl": 2.7747824788093567e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1735,
+    "step": 347
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6798244118690491,
+    "learning_rate": 8.289999999999999e-07,
+    "num_tokens": 240258.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 1.994706690311432e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.174,
+    "step": 348
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006170056294649839,
+    "learning_rate": 8.285e-07,
+    "num_tokens": 241154.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5138258934020996e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1745,
+    "step": 349
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8250600695610046,
+    "learning_rate": 8.28e-07,
+    "num_tokens": 242050.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.6516150683164597e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.175,
+    "step": 350
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8256682753562927,
+    "learning_rate": 8.275e-07,
+    "num_tokens": 242946.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.840269684791565e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1755,
+    "step": 351
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0038211841601878405,
+    "learning_rate": 8.269999999999999e-07,
+    "num_tokens": 243312.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.904119461774826e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.176,
+    "step": 352
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007045888341963291,
+    "learning_rate": 8.264999999999999e-07,
+    "num_tokens": 243678.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.098510205745697e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1765,
+    "step": 353
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005108074401505291,
+    "learning_rate": 8.259999999999999e-07,
+    "num_tokens": 244574.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 1.8666498363018036e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.177,
+    "step": 354
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017009348375722766,
+    "learning_rate": 8.255e-07,
+    "num_tokens": 244940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.8428384363651276e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1775,
+    "step": 355
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009280358208343387,
+    "learning_rate": 8.249999999999999e-07,
+    "num_tokens": 245306.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.047621041536331e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.178,
+    "step": 356
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006316198268905282,
+    "learning_rate": 8.245e-07,
+    "num_tokens": 245672.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.312939614057541e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1785,
+    "step": 357
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008523969445377588,
+    "learning_rate": 8.24e-07,
+    "num_tokens": 246568.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 2.503208816051483e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.179,
+    "step": 358
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.607419490814209,
+    "learning_rate": 8.234999999999999e-07,
+    "num_tokens": 247464.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 2.709217369556427e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1795,
+    "step": 359
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016844611382111907,
+    "learning_rate": 8.229999999999999e-07,
+    "num_tokens": 248360.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.207249730825424e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.18,
+    "step": 360
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0022826315835118294,
+    "learning_rate": 8.225e-07,
+    "num_tokens": 248726.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.5075081288814545e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1805,
+    "step": 361
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.871046245098114,
+    "learning_rate": 8.219999999999999e-07,
+    "num_tokens": 249622.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.359986633062363e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.181,
+    "step": 362
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007096790359355509,
+    "learning_rate": 8.215e-07,
+    "num_tokens": 249988.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.1784566342830658e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1815,
+    "step": 363
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5757960677146912,
+    "learning_rate": 8.21e-07,
+    "num_tokens": 250884.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5734999775886536,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5734999775886536,
+    "reward_std": 0.27082186937332153,
+    "kl": 2.105068415403366e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.182,
+    "step": 364
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0026919955853372812,
+    "learning_rate": 8.205e-07,
+    "num_tokens": 251250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.663597792387009e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1825,
+    "step": 365
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00391238322481513,
+    "learning_rate": 8.199999999999999e-07,
+    "num_tokens": 251616.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.422881364822388e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.183,
+    "step": 366
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019929648842662573,
+    "learning_rate": 8.194999999999999e-07,
+    "num_tokens": 251982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.68716025352478e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1835,
+    "step": 367
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001186743495054543,
+    "learning_rate": 8.189999999999999e-07,
+    "num_tokens": 252348.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.436580300331116e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.184,
+    "step": 368
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4352464973926544,
+    "learning_rate": 8.185e-07,
+    "num_tokens": 253244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 1.8279068171977997e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1845,
+    "step": 369
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.6293253302574158,
+    "learning_rate": 8.179999999999999e-07,
+    "num_tokens": 254140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 2.9394403100013733e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.185,
+    "step": 370
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.768975019454956,
+    "learning_rate": 8.175e-07,
+    "num_tokens": 255036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8185000419616699,
+    "rewards/environment_reward_verifier/std": 0.004949768073856831,
+    "reward": 0.8185000419616699,
+    "reward_std": 0.004949768073856831,
+    "kl": 1.7375685274600983e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1855,
+    "step": 371
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001828294014558196,
+    "learning_rate": 8.169999999999999e-07,
+    "num_tokens": 255932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 0.00010107597336173058,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.186,
+    "step": 372
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.805023729801178,
+    "learning_rate": 8.164999999999999e-07,
+    "num_tokens": 256828.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8100000023841858,
+    "rewards/environment_reward_verifier/std": 0.014142122119665146,
+    "reward": 0.8100000023841858,
+    "reward_std": 0.014142122119665146,
+    "kl": 4.6405941247940063e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1865,
+    "step": 373
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008711764821782708,
+    "learning_rate": 8.159999999999999e-07,
+    "num_tokens": 257194.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.0335580706596375e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.187,
+    "step": 374
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011456962674856186,
+    "learning_rate": 8.155e-07,
+    "num_tokens": 257560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.436300903558731e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1875,
+    "step": 375
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0034832863602787256,
+    "learning_rate": 8.149999999999999e-07,
+    "num_tokens": 258456.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.579514592885971e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.188,
+    "step": 376
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008365235989913344,
+    "learning_rate": 8.145e-07,
+    "num_tokens": 258822.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.2242387533187866e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1885,
+    "step": 377
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003608646511565894,
+    "learning_rate": 8.14e-07,
+    "num_tokens": 259188.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.0672956705093384e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.189,
+    "step": 378
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010314263636246324,
+    "learning_rate": 8.134999999999999e-07,
+    "num_tokens": 259554.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.590209573507309e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1895,
+    "step": 379
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008526266319677234,
+    "learning_rate": 8.129999999999999e-07,
+    "num_tokens": 259920.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.283882349729538e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.19,
+    "step": 380
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007325659971684217,
+    "learning_rate": 8.125e-07,
+    "num_tokens": 260816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 3.8174912333488464e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1905,
+    "step": 381
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.715529203414917,
+    "learning_rate": 8.12e-07,
+    "num_tokens": 261712.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 1.8450431525707245e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.191,
+    "step": 382
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8371534943580627,
+    "learning_rate": 8.115e-07,
+    "num_tokens": 262608.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8245000243186951,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8245000243186951,
+    "reward_std": 0.016263457015156746,
+    "kl": 1.7014332115650177e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1915,
+    "step": 383
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020516454242169857,
+    "learning_rate": 8.11e-07,
+    "num_tokens": 262974.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.929730832576752e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.192,
+    "step": 384
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9516167640686035,
+    "learning_rate": 8.105e-07,
+    "num_tokens": 263870.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 5.2636489272117615e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1925,
+    "step": 385
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009887670166790485,
+    "learning_rate": 8.1e-07,
+    "num_tokens": 264766.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8140000104904175,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8140000104904175,
+    "reward_std": 0.0,
+    "kl": 2.835039049386978e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.193,
+    "step": 386
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 5.623652935028076,
+    "learning_rate": 8.094999999999999e-07,
+    "num_tokens": 265662.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8314999938011169,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8314999938011169,
+    "reward_std": 0.016263457015156746,
+    "kl": 0.0014997078105807304,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1935,
+    "step": 387
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015900827711448073,
+    "learning_rate": 8.09e-07,
+    "num_tokens": 266558.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 4.941131919622421e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.194,
+    "step": 388
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.793515682220459,
+    "learning_rate": 8.085e-07,
+    "num_tokens": 267454.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5975000262260437,
+    "rewards/environment_reward_verifier/std": 0.3047630488872528,
+    "reward": 0.5975000262260437,
+    "reward_std": 0.3047630488872528,
+    "kl": 3.597978502511978e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1945,
+    "step": 389
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8414768576622009,
+    "learning_rate": 8.08e-07,
+    "num_tokens": 268350.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 4.779640585184097e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.195,
+    "step": 390
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028182165697216988,
+    "learning_rate": 8.075e-07,
+    "num_tokens": 268716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.616325557231903e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1955,
+    "step": 391
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008592616650275886,
+    "learning_rate": 8.070000000000001e-07,
+    "num_tokens": 269082.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4487264454364777e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.196,
+    "step": 392
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.569565534591675,
+    "learning_rate": 8.064999999999999e-07,
+    "num_tokens": 269978.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.06434673070907593,
+    "kl": 0.00014215800911188126,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1965,
+    "step": 393
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010324495378881693,
+    "learning_rate": 8.06e-07,
+    "num_tokens": 270344.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.629457205533981e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.197,
+    "step": 394
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8608807325363159,
+    "learning_rate": 8.055e-07,
+    "num_tokens": 271240.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 7.563550025224686e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1975,
+    "step": 395
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005319091724231839,
+    "learning_rate": 8.05e-07,
+    "num_tokens": 272136.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8986018151044846e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.198,
+    "step": 396
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007893664878793061,
+    "learning_rate": 8.045e-07,
+    "num_tokens": 273032.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8220000267028809,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8220000267028809,
+    "reward_std": 0.0,
+    "kl": 2.1637417376041412e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1985,
+    "step": 397
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00043877126881852746,
+    "learning_rate": 8.04e-07,
+    "num_tokens": 273928.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.8969178199768066e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.199,
+    "step": 398
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025300285778939724,
+    "learning_rate": 8.034999999999999e-07,
+    "num_tokens": 274294.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.670768976211548e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.1995,
+    "step": 399
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 3.579826831817627,
+    "learning_rate": 8.03e-07,
+    "num_tokens": 275190.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.0013754144310951233,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2,
+    "step": 400
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0024137054570019245,
+    "learning_rate": 8.024999999999999e-07,
+    "num_tokens": 275556.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.208755075931549e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2005,
+    "step": 401
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.8765020370483398,
+    "learning_rate": 8.02e-07,
+    "num_tokens": 276452.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8194999694824219,
+    "rewards/environment_reward_verifier/std": 0.012020829133689404,
+    "reward": 0.8194999694824219,
+    "reward_std": 0.012020829133689404,
+    "kl": 3.9509497582912445e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.201,
+    "step": 402
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8817614316940308,
+    "learning_rate": 8.015e-07,
+    "num_tokens": 277348.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8289999961853027,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8289999961853027,
+    "reward_std": 0.0014141954015940428,
+    "kl": 1.7669983208179474e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2015,
+    "step": 403
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5131192207336426,
+    "learning_rate": 8.01e-07,
+    "num_tokens": 278244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.824999988079071,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.824999988079071,
+    "reward_std": 0.011313731782138348,
+    "kl": 2.452544867992401e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.202,
+    "step": 404
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9266701340675354,
+    "learning_rate": 8.005e-07,
+    "num_tokens": 279140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.136042505502701e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2025,
+    "step": 405
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010275949025526643,
+    "learning_rate": 8e-07,
+    "num_tokens": 280036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.6168843507766724e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.203,
+    "step": 406
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.020822610706090927,
+    "learning_rate": 7.994999999999999e-07,
+    "num_tokens": 280932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 0.00020745676010847092,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2035,
+    "step": 407
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001042524934746325,
+    "learning_rate": 7.99e-07,
+    "num_tokens": 281298.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.959572106599808e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.204,
+    "step": 408
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000953489972744137,
+    "learning_rate": 7.985e-07,
+    "num_tokens": 281664.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.811329275369644e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2045,
+    "step": 409
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007455811137333512,
+    "learning_rate": 7.98e-07,
+    "num_tokens": 282560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 1.9179657101631165e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.205,
+    "step": 410
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9579814672470093,
+    "learning_rate": 7.975e-07,
+    "num_tokens": 283456.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.659166395664215e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2055,
+    "step": 411
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005196427460759878,
+    "learning_rate": 7.970000000000001e-07,
+    "num_tokens": 283822.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.4914351999759674e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.206,
+    "step": 412
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002247238764539361,
+    "learning_rate": 7.964999999999999e-07,
+    "num_tokens": 284718.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7940000295639038,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7940000295639038,
+    "reward_std": 0.0,
+    "kl": 5.231797695159912e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2065,
+    "step": 413
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006796940229833126,
+    "learning_rate": 7.96e-07,
+    "num_tokens": 285614.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 0.0001318659633398056,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.207,
+    "step": 414
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011936328373849392,
+    "learning_rate": 7.954999999999999e-07,
+    "num_tokens": 285980.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.434864968061447e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2075,
+    "step": 415
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012174234725534916,
+    "learning_rate": 7.95e-07,
+    "num_tokens": 286346.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.835279494524002e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.208,
+    "step": 416
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.123206377029419,
+    "learning_rate": 7.945e-07,
+    "num_tokens": 287242.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8385000228881836,
+    "rewards/environment_reward_verifier/std": 0.026162952184677124,
+    "reward": 0.8385000228881836,
+    "reward_std": 0.026162952184677124,
+    "kl": 0.0003110067918896675,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2085,
+    "step": 417
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004384323488920927,
+    "learning_rate": 7.94e-07,
+    "num_tokens": 288138.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 9.18898731470108e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.209,
+    "step": 418
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4957750141620636,
+    "learning_rate": 7.934999999999999e-07,
+    "num_tokens": 289034.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8100000023841858,
+    "rewards/environment_reward_verifier/std": 0.014142122119665146,
+    "reward": 0.8100000023841858,
+    "reward_std": 0.014142122119665146,
+    "kl": 1.3055279850959778e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2095,
+    "step": 419
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00771497655659914,
+    "learning_rate": 7.93e-07,
+    "num_tokens": 289400.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00016101356595754623,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.21,
+    "step": 420
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010974898468703032,
+    "learning_rate": 7.924999999999999e-07,
+    "num_tokens": 289766.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.816730946302414e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2105,
+    "step": 421
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.798469603061676,
+    "learning_rate": 7.92e-07,
+    "num_tokens": 290662.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6200000047683716,
+    "rewards/environment_reward_verifier/std": 0.33516862988471985,
+    "reward": 0.6200000047683716,
+    "reward_std": 0.33516862988471985,
+    "kl": 3.2133422791957855e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.211,
+    "step": 422
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00414931820705533,
+    "learning_rate": 7.915e-07,
+    "num_tokens": 291028.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 8.758436888456345e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2115,
+    "step": 423
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9511045217514038,
+    "learning_rate": 7.91e-07,
+    "num_tokens": 291924.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 0.00012452621012926102,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.212,
+    "step": 424
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 0.2232443392276764,
+    "learning_rate": 7.905e-07,
+    "num_tokens": 292820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.0015941644087433815,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2125,
+    "step": 425
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002064876724034548,
+    "learning_rate": 7.9e-07,
+    "num_tokens": 293716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 6.643123924732208e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.213,
+    "step": 426
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006416325340978801,
+    "learning_rate": 7.894999999999999e-07,
+    "num_tokens": 294082.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.880766987800598e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2135,
+    "step": 427
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009233696036972106,
+    "learning_rate": 7.89e-07,
+    "num_tokens": 294448.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.7785619497299194e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.214,
+    "step": 428
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001352763269096613,
+    "learning_rate": 7.884999999999999e-07,
+    "num_tokens": 294814.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.464682519435883e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2145,
+    "step": 429
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8443479537963867,
+    "learning_rate": 7.88e-07,
+    "num_tokens": 295710.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.9816292226314545e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.215,
+    "step": 430
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007101478986442089,
+    "learning_rate": 7.875e-07,
+    "num_tokens": 296076.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.693571150302887e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2155,
+    "step": 431
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009829180780798197,
+    "learning_rate": 7.87e-07,
+    "num_tokens": 296972.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8159999847412109,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8159999847412109,
+    "reward_std": 0.0,
+    "kl": 2.2660940885543823e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.216,
+    "step": 432
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2148209810256958,
+    "learning_rate": 7.864999999999999e-07,
+    "num_tokens": 297868.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8259999752044678,
+    "rewards/environment_reward_verifier/std": 0.01272792648524046,
+    "reward": 0.8259999752044678,
+    "reward_std": 0.01272792648524046,
+    "kl": 3.0270777642726898e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2165,
+    "step": 433
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008294544531963766,
+    "learning_rate": 7.86e-07,
+    "num_tokens": 298234.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.230106085538864e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.217,
+    "step": 434
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017025723354890943,
+    "learning_rate": 7.854999999999999e-07,
+    "num_tokens": 298600.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.0699727833271027e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2175,
+    "step": 435
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008352863951586187,
+    "learning_rate": 7.85e-07,
+    "num_tokens": 298966.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.4608725905418396e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.218,
+    "step": 436
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7234691381454468,
+    "learning_rate": 7.845e-07,
+    "num_tokens": 299862.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.358442336320877e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2185,
+    "step": 437
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5953369736671448,
+    "learning_rate": 7.84e-07,
+    "num_tokens": 300758.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8339999914169312,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8339999914169312,
+    "reward_std": 0.0014141954015940428,
+    "kl": 2.1354295313358307e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.219,
+    "step": 438
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006108077359385788,
+    "learning_rate": 7.834999999999999e-07,
+    "num_tokens": 301124.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.793261617422104e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2195,
+    "step": 439
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003298780182376504,
+    "learning_rate": 7.83e-07,
+    "num_tokens": 301490.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.4461339712142944e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.22,
+    "step": 440
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0496840476989746,
+    "learning_rate": 7.824999999999999e-07,
+    "num_tokens": 302386.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 4.3274834752082825e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2205,
+    "step": 441
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.751266598701477,
+    "learning_rate": 7.82e-07,
+    "num_tokens": 303282.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 3.72203066945076e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.221,
+    "step": 442
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010550552979111671,
+    "learning_rate": 7.815e-07,
+    "num_tokens": 303648.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.893168807029724e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2215,
+    "step": 443
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.197258234024048,
+    "learning_rate": 7.81e-07,
+    "num_tokens": 304544.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8240000009536743,
+    "rewards/environment_reward_verifier/std": 0.015556317754089832,
+    "reward": 0.8240000009536743,
+    "reward_std": 0.015556317754089832,
+    "kl": 2.9307790100574493e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.222,
+    "step": 444
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001131376950070262,
+    "learning_rate": 7.805e-07,
+    "num_tokens": 304910.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.5722587704658508e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2225,
+    "step": 445
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.027177333831787,
+    "learning_rate": 7.799999999999999e-07,
+    "num_tokens": 305806.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.660377115011215e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.223,
+    "step": 446
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.4935749769210815,
+    "learning_rate": 7.794999999999999e-07,
+    "num_tokens": 306702.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.15164977312088e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2235,
+    "step": 447
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008162088342942297,
+    "learning_rate": 7.79e-07,
+    "num_tokens": 307068.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.881605178117752e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.224,
+    "step": 448
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008024214766919613,
+    "learning_rate": 7.784999999999999e-07,
+    "num_tokens": 307434.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0684674382209778e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2245,
+    "step": 449
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013720437418669462,
+    "learning_rate": 7.78e-07,
+    "num_tokens": 308330.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 4.176422953605652e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.225,
+    "step": 450
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008150116773322225,
+    "learning_rate": 7.775e-07,
+    "num_tokens": 309226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.145821392536163e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2255,
+    "step": 451
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.42958030104637146,
+    "learning_rate": 7.77e-07,
+    "num_tokens": 310122.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 1.4682300388813019e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.226,
+    "step": 452
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011029124725610018,
+    "learning_rate": 7.764999999999999e-07,
+    "num_tokens": 310488.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.344061017036438e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2265,
+    "step": 453
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011241426691412926,
+    "learning_rate": 7.76e-07,
+    "num_tokens": 310854.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.2280182242393494e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.227,
+    "step": 454
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8502638936042786,
+    "learning_rate": 7.754999999999999e-07,
+    "num_tokens": 311750.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 8.490029722452164e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2275,
+    "step": 455
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013144731055945158,
+    "learning_rate": 7.75e-07,
+    "num_tokens": 312646.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 3.39532271027565e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.228,
+    "step": 456
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009761439287103713,
+    "learning_rate": 7.745e-07,
+    "num_tokens": 313542.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 4.0193088352680206e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2285,
+    "step": 457
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000928891240619123,
+    "learning_rate": 7.74e-07,
+    "num_tokens": 313908.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.352055162191391e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.229,
+    "step": 458
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011163371382281184,
+    "learning_rate": 7.734999999999999e-07,
+    "num_tokens": 314274.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.4972093999385834e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2295,
+    "step": 459
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007710496429353952,
+    "learning_rate": 7.729999999999999e-07,
+    "num_tokens": 315170.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 3.975536674261093e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.23,
+    "step": 460
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007348654326051474,
+    "learning_rate": 7.724999999999999e-07,
+    "num_tokens": 316066.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 2.86223366856575e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2305,
+    "step": 461
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006661872030235827,
+    "learning_rate": 7.72e-07,
+    "num_tokens": 316962.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 3.3562071621418e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.231,
+    "step": 462
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008995214593596756,
+    "learning_rate": 7.714999999999999e-07,
+    "num_tokens": 317328.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9579736292362213e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2315,
+    "step": 463
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00045315801980905235,
+    "learning_rate": 7.71e-07,
+    "num_tokens": 318224.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.7801299691200256e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.232,
+    "step": 464
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6928626894950867,
+    "learning_rate": 7.705e-07,
+    "num_tokens": 319120.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 3.6436133086681366e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2325,
+    "step": 465
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0018925730837509036,
+    "learning_rate": 7.699999999999999e-07,
+    "num_tokens": 319486.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7309171855449677e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.233,
+    "step": 466
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006030919030308723,
+    "learning_rate": 7.694999999999999e-07,
+    "num_tokens": 319852.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.2816471755504608e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2335,
+    "step": 467
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019683674909174442,
+    "learning_rate": 7.69e-07,
+    "num_tokens": 320748.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.710737943649292e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.234,
+    "step": 468
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006103675113990903,
+    "learning_rate": 7.684999999999999e-07,
+    "num_tokens": 321644.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 2.8799287974834442e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2345,
+    "step": 469
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0023804621305316687,
+    "learning_rate": 7.68e-07,
+    "num_tokens": 322010.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.027573883533478e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.235,
+    "step": 470
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009048368665389717,
+    "learning_rate": 7.675e-07,
+    "num_tokens": 322376.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.2327137887477875e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2355,
+    "step": 471
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010861757909879088,
+    "learning_rate": 7.67e-07,
+    "num_tokens": 323272.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 4.105735570192337e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.236,
+    "step": 472
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025868702214211226,
+    "learning_rate": 7.664999999999999e-07,
+    "num_tokens": 323638.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.0113146901130676e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2365,
+    "step": 473
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010592455510050058,
+    "learning_rate": 7.66e-07,
+    "num_tokens": 324004.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.581362009048462e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.237,
+    "step": 474
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.106165885925293,
+    "learning_rate": 7.654999999999999e-07,
+    "num_tokens": 324900.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 6.282981485128403e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2375,
+    "step": 475
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00047323168837465346,
+    "learning_rate": 7.65e-07,
+    "num_tokens": 325796.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 2.4420209228992462e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.238,
+    "step": 476
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008561910362914205,
+    "learning_rate": 7.644999999999999e-07,
+    "num_tokens": 326162.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.239139914512634e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2385,
+    "step": 477
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020574661903083324,
+    "learning_rate": 7.64e-07,
+    "num_tokens": 326528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.563558518886566e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.239,
+    "step": 478
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008511331398040056,
+    "learning_rate": 7.635e-07,
+    "num_tokens": 326894.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.168731927871704e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2395,
+    "step": 479
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 0.3131347894668579,
+    "learning_rate": 7.629999999999999e-07,
+    "num_tokens": 327790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 0.0019212700426578522,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.24,
+    "step": 480
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006524409982375801,
+    "learning_rate": 7.624999999999999e-07,
+    "num_tokens": 328156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3995526134967804e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2405,
+    "step": 481
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0059391213580966,
+    "learning_rate": 7.62e-07,
+    "num_tokens": 328522.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.2319297790527344e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.241,
+    "step": 482
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007000913028605282,
+    "learning_rate": 7.614999999999999e-07,
+    "num_tokens": 328888.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.287661820650101e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2415,
+    "step": 483
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0497050285339355,
+    "learning_rate": 7.61e-07,
+    "num_tokens": 329784.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 4.231557250022888e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.242,
+    "step": 484
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002384317573159933,
+    "learning_rate": 7.605e-07,
+    "num_tokens": 330150.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.9060447812080383e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2425,
+    "step": 485
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013909583212807775,
+    "learning_rate": 7.599999999999999e-07,
+    "num_tokens": 330516.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.785694181919098e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.243,
+    "step": 486
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008498562383465469,
+    "learning_rate": 7.594999999999999e-07,
+    "num_tokens": 330882.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4384818971157074e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2435,
+    "step": 487
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9792348146438599,
+    "learning_rate": 7.59e-07,
+    "num_tokens": 331778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 7.939618080854416e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.244,
+    "step": 488
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009439431014470756,
+    "learning_rate": 7.584999999999999e-07,
+    "num_tokens": 332144.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.3556331396102905e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2445,
+    "step": 489
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7939324975013733,
+    "learning_rate": 7.58e-07,
+    "num_tokens": 333040.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.06434673070907593,
+    "kl": 4.28222119808197e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.245,
+    "step": 490
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003945075150113553,
+    "learning_rate": 7.575e-07,
+    "num_tokens": 333936.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.732911914587021e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2455,
+    "step": 491
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014100059634074569,
+    "learning_rate": 7.57e-07,
+    "num_tokens": 334302.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.51747328042984e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.246,
+    "step": 492
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9064180254936218,
+    "learning_rate": 7.564999999999999e-07,
+    "num_tokens": 335198.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5659999847412109,
+    "rewards/environment_reward_verifier/std": 0.26304370164871216,
+    "reward": 0.5659999847412109,
+    "reward_std": 0.26304370164871216,
+    "kl": 5.394965410232544e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2465,
+    "step": 493
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009017913253046572,
+    "learning_rate": 7.559999999999999e-07,
+    "num_tokens": 335564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.33577224612236e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.247,
+    "step": 494
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.008774330839514732,
+    "learning_rate": 7.554999999999999e-07,
+    "num_tokens": 335930.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00010191276669502258,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2475,
+    "step": 495
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007485725800506771,
+    "learning_rate": 7.55e-07,
+    "num_tokens": 336296.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.93204391002655e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.248,
+    "step": 496
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7277558445930481,
+    "learning_rate": 7.544999999999999e-07,
+    "num_tokens": 337192.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8344999551773071,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8344999551773071,
+    "reward_std": 0.0007070977007970214,
+    "kl": 5.529914051294327e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2485,
+    "step": 497
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.97030508518219,
+    "learning_rate": 7.54e-07,
+    "num_tokens": 338088.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 0.00012331828474998474,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.249,
+    "step": 498
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019033459248021245,
+    "learning_rate": 7.535e-07,
+    "num_tokens": 338454.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.811158239841461e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2495,
+    "step": 499
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006422542501240969,
+    "learning_rate": 7.529999999999999e-07,
+    "num_tokens": 339350.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.1509826183319092e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.25,
+    "step": 500
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9627796411514282,
+    "learning_rate": 7.524999999999999e-07,
+    "num_tokens": 340246.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 2.447608858346939e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2505,
+    "step": 501
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000901131599675864,
+    "learning_rate": 7.52e-07,
+    "num_tokens": 340612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.061164170503616e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.251,
+    "step": 502
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7200298309326172,
+    "learning_rate": 7.514999999999999e-07,
+    "num_tokens": 341508.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 4.367716610431671e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2515,
+    "step": 503
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002020574174821377,
+    "learning_rate": 7.51e-07,
+    "num_tokens": 342404.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 5.6852586567401886e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.252,
+    "step": 504
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009755368810147047,
+    "learning_rate": 7.505e-07,
+    "num_tokens": 342770.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.1616538763046265e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2525,
+    "step": 505
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8925000429153442,
+    "learning_rate": 7.5e-07,
+    "num_tokens": 343666.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 9.544193744659424e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.253,
+    "step": 506
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00094449712196365,
+    "learning_rate": 7.495e-07,
+    "num_tokens": 344032.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.762224853038788e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2535,
+    "step": 507
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5173064470291138,
+    "learning_rate": 7.489999999999999e-07,
+    "num_tokens": 344928.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 7.414352148771286e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.254,
+    "step": 508
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008655313868075609,
+    "learning_rate": 7.485e-07,
+    "num_tokens": 345294.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.4428201615810394e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2545,
+    "step": 509
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009476901614107192,
+    "learning_rate": 7.48e-07,
+    "num_tokens": 345660.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.9035454392433167e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.255,
+    "step": 510
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5047985315322876,
+    "learning_rate": 7.475e-07,
+    "num_tokens": 346556.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 6.398884579539299e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2555,
+    "step": 511
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.2779611349105835,
+    "learning_rate": 7.47e-07,
+    "num_tokens": 347452.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 4.671793431043625e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.256,
+    "step": 512
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025708882603794336,
+    "learning_rate": 7.465e-07,
+    "num_tokens": 347818.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.117819041013718e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2565,
+    "step": 513
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007069227285683155,
+    "learning_rate": 7.459999999999999e-07,
+    "num_tokens": 348184.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.3818185329437256e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.257,
+    "step": 514
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9211877584457397,
+    "learning_rate": 7.455e-07,
+    "num_tokens": 349080.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6110000014305115,
+    "rewards/environment_reward_verifier/std": 0.32809752225875854,
+    "reward": 0.6110000014305115,
+    "reward_std": 0.32809752225875854,
+    "kl": 4.2280182242393494e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2575,
+    "step": 515
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028202433604747057,
+    "learning_rate": 7.45e-07,
+    "num_tokens": 349976.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 5.090329796075821e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.258,
+    "step": 516
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010466987732797861,
+    "learning_rate": 7.445e-07,
+    "num_tokens": 350872.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 4.4493936002254486e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2585,
+    "step": 517
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011290244292467833,
+    "learning_rate": 7.44e-07,
+    "num_tokens": 351238.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4223700165748596e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.259,
+    "step": 518
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9691317081451416,
+    "learning_rate": 7.435000000000001e-07,
+    "num_tokens": 352134.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8350000381469727,
+    "rewards/environment_reward_verifier/std": 0.0014142375439405441,
+    "reward": 0.8350000381469727,
+    "reward_std": 0.0014142375439405441,
+    "kl": 0.00011391844600439072,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2595,
+    "step": 519
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011023505358025432,
+    "learning_rate": 7.429999999999999e-07,
+    "num_tokens": 352500.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.7062523663043976e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.26,
+    "step": 520
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012557971058413386,
+    "learning_rate": 7.425e-07,
+    "num_tokens": 353396.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 3.79001721739769e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2605,
+    "step": 521
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001549424254335463,
+    "learning_rate": 7.42e-07,
+    "num_tokens": 353762.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.348771810531616e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.261,
+    "step": 522
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7359144687652588,
+    "learning_rate": 7.415e-07,
+    "num_tokens": 354658.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.5052187740802765e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2615,
+    "step": 523
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008711325353942811,
+    "learning_rate": 7.41e-07,
+    "num_tokens": 355024.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.368314355611801e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.262,
+    "step": 524
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014574839733541012,
+    "learning_rate": 7.405e-07,
+    "num_tokens": 355920.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 5.590170621871948e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2625,
+    "step": 525
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007790196686983109,
+    "learning_rate": 7.4e-07,
+    "num_tokens": 356816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.2617710530757904e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.263,
+    "step": 526
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012634535087272525,
+    "learning_rate": 7.395e-07,
+    "num_tokens": 357712.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.7451816499233246e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2635,
+    "step": 527
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8514025211334229,
+    "learning_rate": 7.389999999999999e-07,
+    "num_tokens": 358608.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 3.659818321466446e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.264,
+    "step": 528
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017907796427607536,
+    "learning_rate": 7.385e-07,
+    "num_tokens": 358974.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8436072170734406e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2645,
+    "step": 529
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009088242659345269,
+    "learning_rate": 7.38e-07,
+    "num_tokens": 359340.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9717572033405304e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.265,
+    "step": 530
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.416846752166748,
+    "learning_rate": 7.375e-07,
+    "num_tokens": 360236.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8264999985694885,
+    "rewards/environment_reward_verifier/std": 0.012020787224173546,
+    "reward": 0.8264999985694885,
+    "reward_std": 0.012020787224173546,
+    "kl": 3.840494900941849e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2655,
+    "step": 531
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013038903707638383,
+    "learning_rate": 7.37e-07,
+    "num_tokens": 360602.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.015917122364044e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.266,
+    "step": 532
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011814340250566602,
+    "learning_rate": 7.365e-07,
+    "num_tokens": 360968.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.90554016828537e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2665,
+    "step": 533
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.036372631788253784,
+    "learning_rate": 7.359999999999999e-07,
+    "num_tokens": 361864.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 0.00014512613415718079,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.267,
+    "step": 534
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004396241623908281,
+    "learning_rate": 7.355e-07,
+    "num_tokens": 362230.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.8152171075344086e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2675,
+    "step": 535
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006165736122056842,
+    "learning_rate": 7.35e-07,
+    "num_tokens": 363126.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 2.704653888940811e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.268,
+    "step": 536
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000927309098187834,
+    "learning_rate": 7.345e-07,
+    "num_tokens": 363492.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.315415233373642e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2685,
+    "step": 537
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00157637195661664,
+    "learning_rate": 7.34e-07,
+    "num_tokens": 364388.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.674214869737625e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.269,
+    "step": 538
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015477711567655206,
+    "learning_rate": 7.335e-07,
+    "num_tokens": 364754.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.830568701028824e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2695,
+    "step": 539
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1562288999557495,
+    "learning_rate": 7.329999999999999e-07,
+    "num_tokens": 365650.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8365000486373901,
+    "rewards/environment_reward_verifier/std": 0.01909189112484455,
+    "reward": 0.8365000486373901,
+    "reward_std": 0.01909189112484455,
+    "kl": 2.844352275133133e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.27,
+    "step": 540
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.646880030632019,
+    "learning_rate": 7.325e-07,
+    "num_tokens": 366546.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 1.5391036868095398e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2705,
+    "step": 541
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017395936883985996,
+    "learning_rate": 7.319999999999999e-07,
+    "num_tokens": 367442.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 6.28521665930748e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.271,
+    "step": 542
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006721155950799584,
+    "learning_rate": 7.315e-07,
+    "num_tokens": 367808.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.583395689725876e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2715,
+    "step": 543
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009692271705716848,
+    "learning_rate": 7.31e-07,
+    "num_tokens": 368174.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9871629774570465e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.272,
+    "step": 544
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010545527329668403,
+    "learning_rate": 7.305e-07,
+    "num_tokens": 368540.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.037136048078537e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2725,
+    "step": 545
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012554118875414133,
+    "learning_rate": 7.3e-07,
+    "num_tokens": 368906.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.573950380086899e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.273,
+    "step": 546
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7156521677970886,
+    "learning_rate": 7.295e-07,
+    "num_tokens": 369802.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.4407712519168854e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2735,
+    "step": 547
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003729368036147207,
+    "learning_rate": 7.289999999999999e-07,
+    "num_tokens": 370168.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.4538876712322235e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.274,
+    "step": 548
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016862640623003244,
+    "learning_rate": 7.285e-07,
+    "num_tokens": 370534.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.4197775423526764e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2745,
+    "step": 549
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007830922259017825,
+    "learning_rate": 7.28e-07,
+    "num_tokens": 371430.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 2.658367156982422e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.275,
+    "step": 550
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010923327645286918,
+    "learning_rate": 7.275e-07,
+    "num_tokens": 371796.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.927627742290497e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2755,
+    "step": 551
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8142842054367065,
+    "learning_rate": 7.27e-07,
+    "num_tokens": 372692.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.250276833772659e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.276,
+    "step": 552
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6860761642456055,
+    "learning_rate": 7.265000000000001e-07,
+    "num_tokens": 373588.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5734999775886536,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5734999775886536,
+    "reward_std": 0.27082186937332153,
+    "kl": 3.765430301427841e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2765,
+    "step": 553
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008581196889281273,
+    "learning_rate": 7.259999999999999e-07,
+    "num_tokens": 373954.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.81167808175087e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.277,
+    "step": 554
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011645841877907515,
+    "learning_rate": 7.255e-07,
+    "num_tokens": 374320.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8624199330806732e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2775,
+    "step": 555
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.9909136295318604,
+    "learning_rate": 7.249999999999999e-07,
+    "num_tokens": 375216.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 9.493250399827957e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.278,
+    "step": 556
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014020655071362853,
+    "learning_rate": 7.245e-07,
+    "num_tokens": 376112.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 4.471559077501297e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2785,
+    "step": 557
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004894250887446105,
+    "learning_rate": 7.24e-07,
+    "num_tokens": 376478.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.7498619854450226e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.279,
+    "step": 558
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006631935248151422,
+    "learning_rate": 7.235e-07,
+    "num_tokens": 377374.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 3.2833777368068695e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2795,
+    "step": 559
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011922323610633612,
+    "learning_rate": 7.229999999999999e-07,
+    "num_tokens": 377740.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.988722503185272e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.28,
+    "step": 560
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7559614777565002,
+    "learning_rate": 7.225e-07,
+    "num_tokens": 378636.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8259999752044678,
+    "rewards/environment_reward_verifier/std": 0.01272792648524046,
+    "reward": 0.8259999752044678,
+    "reward_std": 0.01272792648524046,
+    "kl": 4.695635288953781e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2805,
+    "step": 561
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7900487780570984,
+    "learning_rate": 7.219999999999999e-07,
+    "num_tokens": 379532.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.812999963760376,
+    "rewards/environment_reward_verifier/std": 0.009899493306875229,
+    "reward": 0.812999963760376,
+    "reward_std": 0.009899494238197803,
+    "kl": 3.7454068660736084e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.281,
+    "step": 562
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014660859014838934,
+    "learning_rate": 7.215e-07,
+    "num_tokens": 379898.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.8963894844055176e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2815,
+    "step": 563
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0280815362930298,
+    "learning_rate": 7.21e-07,
+    "num_tokens": 380794.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 6.190314888954163e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.282,
+    "step": 564
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 6.458773612976074,
+    "learning_rate": 7.205e-07,
+    "num_tokens": 381690.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 0.001496921293437481,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2825,
+    "step": 565
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010697654215618968,
+    "learning_rate": 7.2e-07,
+    "num_tokens": 382056.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.735573798418045e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.283,
+    "step": 566
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8140199184417725,
+    "learning_rate": 7.195e-07,
+    "num_tokens": 382952.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 3.6473385989665985e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2835,
+    "step": 567
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6990031599998474,
+    "learning_rate": 7.189999999999999e-07,
+    "num_tokens": 383848.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.972664803266525e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.284,
+    "step": 568
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.48030799627304077,
+    "learning_rate": 7.185e-07,
+    "num_tokens": 384744.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 3.3359043300151825e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2845,
+    "step": 569
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6752439141273499,
+    "learning_rate": 7.179999999999999e-07,
+    "num_tokens": 385640.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5659999847412109,
+    "rewards/environment_reward_verifier/std": 0.26304370164871216,
+    "reward": 0.5659999847412109,
+    "reward_std": 0.26304370164871216,
+    "kl": 2.0023435354232788e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.285,
+    "step": 570
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005463989917188883,
+    "learning_rate": 7.175e-07,
+    "num_tokens": 386536.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.0,
+    "kl": 0.00011748820543289185,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2855,
+    "step": 571
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015461534494534135,
+    "learning_rate": 7.17e-07,
+    "num_tokens": 386902.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5323592126369476e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.286,
+    "step": 572
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8691689968109131,
+    "learning_rate": 7.165e-07,
+    "num_tokens": 387798.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 9.879283607006073e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2865,
+    "step": 573
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9046115279197693,
+    "learning_rate": 7.159999999999999e-07,
+    "num_tokens": 388694.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.8303824365139008e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.287,
+    "step": 574
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012133732670918107,
+    "learning_rate": 7.155e-07,
+    "num_tokens": 389060.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.523286432027817e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2875,
+    "step": 575
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1806221008300781,
+    "learning_rate": 7.149999999999999e-07,
+    "num_tokens": 389956.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7904999852180481,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7904999852180481,
+    "reward_std": 0.037476640194654465,
+    "kl": 4.287436604499817e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.288,
+    "step": 576
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6862530708312988,
+    "learning_rate": 7.145e-07,
+    "num_tokens": 390852.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.045254841446876526,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.045254841446876526,
+    "kl": 2.5819987058639526e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2885,
+    "step": 577
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016118023777380586,
+    "learning_rate": 7.14e-07,
+    "num_tokens": 391218.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.8440881073474884e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.289,
+    "step": 578
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008948792237788439,
+    "learning_rate": 7.135e-07,
+    "num_tokens": 391584.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.9758008420467377e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2895,
+    "step": 579
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017725012730807066,
+    "learning_rate": 7.129999999999999e-07,
+    "num_tokens": 391950.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.52590936422348e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.29,
+    "step": 580
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003398467553779483,
+    "learning_rate": 7.125e-07,
+    "num_tokens": 392316.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.3013674914836884e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2905,
+    "step": 581
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011972826905548573,
+    "learning_rate": 7.119999999999999e-07,
+    "num_tokens": 392682.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.47416678071022e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.291,
+    "step": 582
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000996905378997326,
+    "learning_rate": 7.115e-07,
+    "num_tokens": 393048.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.768503665924072e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2915,
+    "step": 583
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.3965910077095032,
+    "learning_rate": 7.11e-07,
+    "num_tokens": 393944.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 1.6774050891399384e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.292,
+    "step": 584
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1074873208999634,
+    "learning_rate": 7.105e-07,
+    "num_tokens": 394840.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.8788653910160065e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2925,
+    "step": 585
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007802587351761758,
+    "learning_rate": 7.1e-07,
+    "num_tokens": 395206.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.516022115945816e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.293,
+    "step": 586
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005516806268133223,
+    "learning_rate": 7.094999999999999e-07,
+    "num_tokens": 396102.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.4449080228805542e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2935,
+    "step": 587
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013195326318964362,
+    "learning_rate": 7.089999999999999e-07,
+    "num_tokens": 396468.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.4308061003685e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.294,
+    "step": 588
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014623524621129036,
+    "learning_rate": 7.085e-07,
+    "num_tokens": 396834.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.5030377805233e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2945,
+    "step": 589
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007937848567962646,
+    "learning_rate": 7.079999999999999e-07,
+    "num_tokens": 397730.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 3.699958324432373e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.295,
+    "step": 590
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6660794019699097,
+    "learning_rate": 7.075e-07,
+    "num_tokens": 398626.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8174999952316284,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8174999952316284,
+    "reward_std": 0.014849262312054634,
+    "kl": 2.4378299713134766e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2955,
+    "step": 591
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011187827913090587,
+    "learning_rate": 7.07e-07,
+    "num_tokens": 398992.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.750009298324585e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.296,
+    "step": 592
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013909402769058943,
+    "learning_rate": 7.065e-07,
+    "num_tokens": 399358.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.801526665687561e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2965,
+    "step": 593
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.009479865431785583,
+    "learning_rate": 7.059999999999999e-07,
+    "num_tokens": 400254.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 0.00018437672406435013,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.297,
+    "step": 594
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006968002999201417,
+    "learning_rate": 7.055e-07,
+    "num_tokens": 400620.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.683699131011963e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2975,
+    "step": 595
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1247608661651611,
+    "learning_rate": 7.049999999999999e-07,
+    "num_tokens": 401516.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.596395254135132e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.298,
+    "step": 596
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7843502759933472,
+    "learning_rate": 7.045e-07,
+    "num_tokens": 402412.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7669999599456787,
+    "rewards/environment_reward_verifier/std": 0.00424262834712863,
+    "reward": 0.7669999599456787,
+    "reward_std": 0.00424262834712863,
+    "kl": 3.2738782465457916e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2985,
+    "step": 597
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007366478675976396,
+    "learning_rate": 7.04e-07,
+    "num_tokens": 402778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6930123567581177e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.299,
+    "step": 598
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5876581072807312,
+    "learning_rate": 7.035e-07,
+    "num_tokens": 403674.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.1344982087612152e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.2995,
+    "step": 599
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.7197017669677734,
+    "learning_rate": 7.029999999999999e-07,
+    "num_tokens": 404570.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.03111271932721138,
+    "reward": 0.828000009059906,
+    "reward_std": 0.03111271932721138,
+    "kl": 9.680353105068207e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3,
+    "step": 600
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001130021526478231,
+    "learning_rate": 7.024999999999999e-07,
+    "num_tokens": 404936.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.8620863556861877e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3005,
+    "step": 601
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0326294898986816,
+    "learning_rate": 7.019999999999999e-07,
+    "num_tokens": 405832.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8370000123977661,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8370000123977661,
+    "reward_std": 0.0014141954015940428,
+    "kl": 8.158478885889053e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.301,
+    "step": 602
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007612873450852931,
+    "learning_rate": 7.015e-07,
+    "num_tokens": 406198.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8013251721858978e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3015,
+    "step": 603
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015164915239438415,
+    "learning_rate": 7.009999999999999e-07,
+    "num_tokens": 406564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.440639168024063e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.302,
+    "step": 604
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012494310503825545,
+    "learning_rate": 7.005e-07,
+    "num_tokens": 407460.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 5.6570395827293396e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3025,
+    "step": 605
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7219941020011902,
+    "learning_rate": 7e-07,
+    "num_tokens": 408356.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8344999551773071,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8344999551773071,
+    "reward_std": 0.0007070977007970214,
+    "kl": 3.477931022644043e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.303,
+    "step": 606
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5845794677734375,
+    "learning_rate": 6.994999999999999e-07,
+    "num_tokens": 409252.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.00424262834712863,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.00424262834712863,
+    "kl": 7.447786629199982e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3035,
+    "step": 607
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1389849185943604,
+    "learning_rate": 6.989999999999999e-07,
+    "num_tokens": 410148.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 4.856474697589874e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.304,
+    "step": 608
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.9767954349517822,
+    "learning_rate": 6.985e-07,
+    "num_tokens": 411044.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6110000014305115,
+    "rewards/environment_reward_verifier/std": 0.32809752225875854,
+    "reward": 0.6110000014305115,
+    "reward_std": 0.32809752225875854,
+    "kl": 5.687400698661804e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3045,
+    "step": 609
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010801024036481977,
+    "learning_rate": 6.979999999999999e-07,
+    "num_tokens": 411410.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.324689507484436e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.305,
+    "step": 610
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011967119062319398,
+    "learning_rate": 6.975e-07,
+    "num_tokens": 412306.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.905687481164932e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3055,
+    "step": 611
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006793588981963694,
+    "learning_rate": 6.97e-07,
+    "num_tokens": 413202.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.5127472579479218e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.306,
+    "step": 612
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005013294867239892,
+    "learning_rate": 6.965e-07,
+    "num_tokens": 413568.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.882854849100113e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3065,
+    "step": 613
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007044204394333065,
+    "learning_rate": 6.959999999999999e-07,
+    "num_tokens": 413934.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5583431124687195e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.307,
+    "step": 614
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000589247967582196,
+    "learning_rate": 6.955e-07,
+    "num_tokens": 414830.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 2.7990899980068207e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3075,
+    "step": 615
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7483782768249512,
+    "learning_rate": 6.949999999999999e-07,
+    "num_tokens": 415726.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.3659860491752625e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.308,
+    "step": 616
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5555701851844788,
+    "learning_rate": 6.945e-07,
+    "num_tokens": 416622.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5744999647140503,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5744999647140503,
+    "reward_std": 0.27082186937332153,
+    "kl": 4.6846456825733185e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3085,
+    "step": 617
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0049834963865578175,
+    "learning_rate": 6.939999999999999e-07,
+    "num_tokens": 416988.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.719756543636322e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.309,
+    "step": 618
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017910569440573454,
+    "learning_rate": 6.935e-07,
+    "num_tokens": 417884.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 6.791949272155762e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3095,
+    "step": 619
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004858257714658976,
+    "learning_rate": 6.929999999999999e-07,
+    "num_tokens": 418250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00011091213673353195,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.31,
+    "step": 620
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.75960373878479,
+    "learning_rate": 6.924999999999999e-07,
+    "num_tokens": 419146.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 2.6852823793888092e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3105,
+    "step": 621
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010069460840895772,
+    "learning_rate": 6.919999999999999e-07,
+    "num_tokens": 419512.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.194863140583038e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.311,
+    "step": 622
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.008241693489253521,
+    "learning_rate": 6.915e-07,
+    "num_tokens": 419878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00017871428281068802,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3115,
+    "step": 623
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.8802902698516846,
+    "learning_rate": 6.909999999999999e-07,
+    "num_tokens": 420774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8339999914169312,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8339999914169312,
+    "reward_std": 0.0014141954015940428,
+    "kl": 3.557652235031128e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.312,
+    "step": 624
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8549783825874329,
+    "learning_rate": 6.905e-07,
+    "num_tokens": 421670.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 6.370618939399719e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3125,
+    "step": 625
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7835222482681274,
+    "learning_rate": 6.9e-07,
+    "num_tokens": 422566.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.9892660677433014e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.313,
+    "step": 626
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6540793180465698,
+    "learning_rate": 6.894999999999999e-07,
+    "num_tokens": 423462.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 6.963033229112625e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3135,
+    "step": 627
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005253406707197428,
+    "learning_rate": 6.889999999999999e-07,
+    "num_tokens": 423828.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.8034130334854126e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.314,
+    "step": 628
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009612101130187511,
+    "learning_rate": 6.885e-07,
+    "num_tokens": 424194.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.799237310886383e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3145,
+    "step": 629
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007504363311454654,
+    "learning_rate": 6.879999999999999e-07,
+    "num_tokens": 424560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.4528242647647858e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.315,
+    "step": 630
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010777200805023313,
+    "learning_rate": 6.875e-07,
+    "num_tokens": 424926.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.31831756234169e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3155,
+    "step": 631
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001108592259697616,
+    "learning_rate": 6.87e-07,
+    "num_tokens": 425292.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.3447908461093903e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.316,
+    "step": 632
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8040815591812134,
+    "learning_rate": 6.865e-07,
+    "num_tokens": 426188.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 2.512522041797638e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3165,
+    "step": 633
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6935257911682129,
+    "learning_rate": 6.86e-07,
+    "num_tokens": 427084.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8355000019073486,
+    "rewards/environment_reward_verifier/std": 0.0007071398431435227,
+    "reward": 0.8355000019073486,
+    "reward_std": 0.0007071398431435227,
+    "kl": 5.880650132894516e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.317,
+    "step": 634
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012401107233017683,
+    "learning_rate": 6.854999999999999e-07,
+    "num_tokens": 427450.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.05838543176651e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3175,
+    "step": 635
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003047216683626175,
+    "learning_rate": 6.85e-07,
+    "num_tokens": 427816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.263501614332199e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.318,
+    "step": 636
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007127355202101171,
+    "learning_rate": 6.845e-07,
+    "num_tokens": 428182.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.4394521713256836e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3185,
+    "step": 637
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7168914079666138,
+    "learning_rate": 6.84e-07,
+    "num_tokens": 429078.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 3.9987266063690186e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.319,
+    "step": 638
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012631439603865147,
+    "learning_rate": 6.835e-07,
+    "num_tokens": 429444.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7933157980442047e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3195,
+    "step": 639
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010941632790490985,
+    "learning_rate": 6.830000000000001e-07,
+    "num_tokens": 429810.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.12454828619957e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.32,
+    "step": 640
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5629311800003052,
+    "learning_rate": 6.824999999999999e-07,
+    "num_tokens": 430706.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8370000123977661,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8370000123977661,
+    "reward_std": 0.0014141954015940428,
+    "kl": 2.9305927455425262e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3205,
+    "step": 641
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014564594021067023,
+    "learning_rate": 6.82e-07,
+    "num_tokens": 431602.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.473142325878143e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.321,
+    "step": 642
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008370128343813121,
+    "learning_rate": 6.815e-07,
+    "num_tokens": 431968.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.746524453163147e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3215,
+    "step": 643
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6197002530097961,
+    "learning_rate": 6.81e-07,
+    "num_tokens": 432864.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 2.3438595235347748e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.322,
+    "step": 644
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005567868938669562,
+    "learning_rate": 6.805e-07,
+    "num_tokens": 433230.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.808907836675644e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3225,
+    "step": 645
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6040643453598022,
+    "learning_rate": 6.800000000000001e-07,
+    "num_tokens": 434126.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5659999847412109,
+    "rewards/environment_reward_verifier/std": 0.26304370164871216,
+    "reward": 0.5659999847412109,
+    "reward_std": 0.26304370164871216,
+    "kl": 2.449285238981247e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.323,
+    "step": 646
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002252435078844428,
+    "learning_rate": 6.794999999999999e-07,
+    "num_tokens": 435022.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 7.445178925991058e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3235,
+    "step": 647
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 4.579550266265869,
+    "learning_rate": 6.79e-07,
+    "num_tokens": 435918.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 6.625894457101822e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.324,
+    "step": 648
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013744801981374621,
+    "learning_rate": 6.784999999999999e-07,
+    "num_tokens": 436814.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 5.259178578853607e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3245,
+    "step": 649
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.698723554611206,
+    "learning_rate": 6.78e-07,
+    "num_tokens": 437710.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.875838592648506e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.325,
+    "step": 650
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011548621114343405,
+    "learning_rate": 6.775e-07,
+    "num_tokens": 438076.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.358682781457901e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3255,
+    "step": 651
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006847024778835475,
+    "learning_rate": 6.77e-07,
+    "num_tokens": 438972.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.094559699296951e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.326,
+    "step": 652
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007354238186962903,
+    "learning_rate": 6.765e-07,
+    "num_tokens": 439338.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0337291061878204e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3265,
+    "step": 653
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010975906625390053,
+    "learning_rate": 6.76e-07,
+    "num_tokens": 439704.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.489440470933914e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.327,
+    "step": 654
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011954187648370862,
+    "learning_rate": 6.754999999999999e-07,
+    "num_tokens": 440070.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.033891648054123e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3275,
+    "step": 655
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.011588593944907188,
+    "learning_rate": 6.75e-07,
+    "num_tokens": 440966.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00018292898312211037,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.328,
+    "step": 656
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006912227254360914,
+    "learning_rate": 6.745e-07,
+    "num_tokens": 441862.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.7865713238716125e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3285,
+    "step": 657
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2161142826080322,
+    "learning_rate": 6.74e-07,
+    "num_tokens": 442758.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8144999742507935,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8144999742507935,
+    "reward_std": 0.0035355305299162865,
+    "kl": 9.529199451208115e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.329,
+    "step": 658
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000648809946142137,
+    "learning_rate": 6.735e-07,
+    "num_tokens": 443124.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.019813448190689e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3295,
+    "step": 659
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.6099978089332581,
+    "learning_rate": 6.730000000000001e-07,
+    "num_tokens": 444020.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 2.8732232749462128e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.33,
+    "step": 660
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.014809012413025,
+    "learning_rate": 6.724999999999999e-07,
+    "num_tokens": 444916.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7904999852180481,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7904999852180481,
+    "reward_std": 0.037476640194654465,
+    "kl": 8.21063295006752e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3305,
+    "step": 661
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0332342386245728,
+    "learning_rate": 6.72e-07,
+    "num_tokens": 445812.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8144999742507935,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8144999742507935,
+    "reward_std": 0.0035355305299162865,
+    "kl": 5.087442696094513e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.331,
+    "step": 662
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9325398802757263,
+    "learning_rate": 6.714999999999999e-07,
+    "num_tokens": 446708.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 7.722713053226471e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3315,
+    "step": 663
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.077994465827942,
+    "learning_rate": 6.71e-07,
+    "num_tokens": 447604.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 8.442718535661697e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.332,
+    "step": 664
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.30242636799812317,
+    "learning_rate": 6.705e-07,
+    "num_tokens": 448500.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5914999842643738,
+    "rewards/environment_reward_verifier/std": 0.3047630190849304,
+    "reward": 0.5914999842643738,
+    "reward_std": 0.3047630190849304,
+    "kl": 1.6080215573310852e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3325,
+    "step": 665
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7816704511642456,
+    "learning_rate": 6.7e-07,
+    "num_tokens": 449396.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 5.314219743013382e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.333,
+    "step": 666
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7801264524459839,
+    "learning_rate": 6.695e-07,
+    "num_tokens": 450292.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 2.9692426323890686e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3335,
+    "step": 667
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009613597649149597,
+    "learning_rate": 6.69e-07,
+    "num_tokens": 450658.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9587186872959137e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.334,
+    "step": 668
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008051811018958688,
+    "learning_rate": 6.684999999999999e-07,
+    "num_tokens": 451554.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 3.367289900779724e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3345,
+    "step": 669
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9789057970046997,
+    "learning_rate": 6.68e-07,
+    "num_tokens": 452450.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 7.941573858261108e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.335,
+    "step": 670
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009357063099741936,
+    "learning_rate": 6.675e-07,
+    "num_tokens": 452816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.7661753594875336e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3355,
+    "step": 671
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8246026039123535,
+    "learning_rate": 6.67e-07,
+    "num_tokens": 453712.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8114999532699585,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8114999532699585,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.839656710624695e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.336,
+    "step": 672
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5829533338546753,
+    "learning_rate": 6.665e-07,
+    "num_tokens": 454608.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8355000019073486,
+    "rewards/environment_reward_verifier/std": 0.0007071398431435227,
+    "reward": 0.8355000019073486,
+    "reward_std": 0.0007071398431435227,
+    "kl": 4.0553510189056396e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3365,
+    "step": 673
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7374504208564758,
+    "learning_rate": 6.66e-07,
+    "num_tokens": 455504.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 2.423301339149475e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.337,
+    "step": 674
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2778427600860596,
+    "learning_rate": 6.654999999999999e-07,
+    "num_tokens": 456400.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 7.122103124856949e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3375,
+    "step": 675
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014428014401346445,
+    "learning_rate": 6.65e-07,
+    "num_tokens": 457296.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 4.827417433261871e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.338,
+    "step": 676
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6748918890953064,
+    "learning_rate": 6.645e-07,
+    "num_tokens": 458192.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7875000238418579,
+    "rewards/environment_reward_verifier/std": 0.05020460858941078,
+    "reward": 0.7875000238418579,
+    "reward_std": 0.05020460858941078,
+    "kl": 2.82973051071167e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3385,
+    "step": 677
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010371003299951553,
+    "learning_rate": 6.64e-07,
+    "num_tokens": 459088.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.760494291782379e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.339,
+    "step": 678
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008279599715024233,
+    "learning_rate": 6.635e-07,
+    "num_tokens": 459454.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.543387770652771e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3395,
+    "step": 679
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004288914205972105,
+    "learning_rate": 6.63e-07,
+    "num_tokens": 459820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.6702339053153992e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.34,
+    "step": 680
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0035996404476463795,
+    "learning_rate": 6.624999999999999e-07,
+    "num_tokens": 460716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 7.754005491733551e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3405,
+    "step": 681
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006002707523293793,
+    "learning_rate": 6.62e-07,
+    "num_tokens": 461612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8569999933242798,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8569999933242798,
+    "reward_std": 0.0,
+    "kl": 3.461819142103195e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.341,
+    "step": 682
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7093996405601501,
+    "learning_rate": 6.614999999999999e-07,
+    "num_tokens": 462508.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.346280962228775e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3415,
+    "step": 683
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025844546034932137,
+    "learning_rate": 6.61e-07,
+    "num_tokens": 462874.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.116499960422516e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.342,
+    "step": 684
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011869438458234072,
+    "learning_rate": 6.605e-07,
+    "num_tokens": 463770.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 4.194118082523346e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3425,
+    "step": 685
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9997851252555847,
+    "learning_rate": 6.6e-07,
+    "num_tokens": 464666.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 5.1662325859069824e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.343,
+    "step": 686
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6725564002990723,
+    "learning_rate": 6.595e-07,
+    "num_tokens": 465562.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.0244158804416656e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3435,
+    "step": 687
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6846553683280945,
+    "learning_rate": 6.59e-07,
+    "num_tokens": 466458.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7860000133514404,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7860000133514404,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.7189962565898895e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.344,
+    "step": 688
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6613869667053223,
+    "learning_rate": 6.584999999999999e-07,
+    "num_tokens": 467354.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.7700945287942886e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3445,
+    "step": 689
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001505712396465242,
+    "learning_rate": 6.58e-07,
+    "num_tokens": 468250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 4.06438484787941e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.345,
+    "step": 690
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004417377058416605,
+    "learning_rate": 6.575e-07,
+    "num_tokens": 468616.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.115785360336304e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3455,
+    "step": 691
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016008485108613968,
+    "learning_rate": 6.57e-07,
+    "num_tokens": 468982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.507973790168762e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.346,
+    "step": 692
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6884562373161316,
+    "learning_rate": 6.565e-07,
+    "num_tokens": 469878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6024999618530273,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6024999618530273,
+    "reward_std": 0.32031938433647156,
+    "kl": 2.653617411851883e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3465,
+    "step": 693
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010921740904450417,
+    "learning_rate": 6.56e-07,
+    "num_tokens": 470244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8137117624282837e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.347,
+    "step": 694
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6846423745155334,
+    "learning_rate": 6.554999999999999e-07,
+    "num_tokens": 471140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 3.712344914674759e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3475,
+    "step": 695
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0036911554634571075,
+    "learning_rate": 6.55e-07,
+    "num_tokens": 472036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.1732716858387e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.348,
+    "step": 696
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006061898893676698,
+    "learning_rate": 6.544999999999999e-07,
+    "num_tokens": 472932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8159999847412109,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8159999847412109,
+    "reward_std": 0.0,
+    "kl": 2.7766451239585876e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3485,
+    "step": 697
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002090150723233819,
+    "learning_rate": 6.54e-07,
+    "num_tokens": 473828.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 4.992447793483734e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.349,
+    "step": 698
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.531058430671692,
+    "learning_rate": 6.535e-07,
+    "num_tokens": 474724.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 5.740951746702194e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3495,
+    "step": 699
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5353614091873169,
+    "learning_rate": 6.53e-07,
+    "num_tokens": 475620.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.08909548819065094,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.08909548819065094,
+    "kl": 2.967100590467453e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.35,
+    "step": 700
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006890299846418202,
+    "learning_rate": 6.524999999999999e-07,
+    "num_tokens": 476516.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6377849280834198e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3505,
+    "step": 701
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011575064854696393,
+    "learning_rate": 6.52e-07,
+    "num_tokens": 476882.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6336871087551117e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.351,
+    "step": 702
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0071227550506592,
+    "learning_rate": 6.514999999999999e-07,
+    "num_tokens": 477778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7904999852180481,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7904999852180481,
+    "reward_std": 0.037476640194654465,
+    "kl": 5.2426010370254517e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3515,
+    "step": 703
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.6260432600975037,
+    "learning_rate": 6.51e-07,
+    "num_tokens": 478674.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 3.0035153031349182e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.352,
+    "step": 704
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009116759756579995,
+    "learning_rate": 6.505e-07,
+    "num_tokens": 479570.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 4.060380160808563e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3525,
+    "step": 705
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0030497321859002113,
+    "learning_rate": 6.5e-07,
+    "num_tokens": 479936.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.0684047639369965e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.353,
+    "step": 706
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006430986686609685,
+    "learning_rate": 6.495e-07,
+    "num_tokens": 480832.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 3.116205334663391e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3535,
+    "step": 707
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0158851146697998,
+    "learning_rate": 6.49e-07,
+    "num_tokens": 481728.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.7221390306949615e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.354,
+    "step": 708
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8351655006408691,
+    "learning_rate": 6.484999999999999e-07,
+    "num_tokens": 482624.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8454999923706055,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8454999923706055,
+    "reward_std": 0.014849262312054634,
+    "kl": 3.985455259680748e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3545,
+    "step": 709
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002636699238792062,
+    "learning_rate": 6.48e-07,
+    "num_tokens": 482990.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.9441511034965515e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.355,
+    "step": 710
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011992601212114096,
+    "learning_rate": 6.474999999999999e-07,
+    "num_tokens": 483886.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.492606967687607e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3555,
+    "step": 711
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006801988347433507,
+    "learning_rate": 6.47e-07,
+    "num_tokens": 484782.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 2.647656947374344e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.356,
+    "step": 712
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006278291693888605,
+    "learning_rate": 6.465e-07,
+    "num_tokens": 485148.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.96151265501976e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3565,
+    "step": 713
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.02269609458744526,
+    "learning_rate": 6.46e-07,
+    "num_tokens": 486044.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.00012513156980276108,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.357,
+    "step": 714
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2117421627044678,
+    "learning_rate": 6.454999999999999e-07,
+    "num_tokens": 486940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8264999985694885,
+    "rewards/environment_reward_verifier/std": 0.004949725698679686,
+    "reward": 0.8264999985694885,
+    "reward_std": 0.004949725698679686,
+    "kl": 8.92365351319313e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3575,
+    "step": 715
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8121581673622131,
+    "learning_rate": 6.45e-07,
+    "num_tokens": 487836.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 3.440864384174347e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.358,
+    "step": 716
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007526807021349669,
+    "learning_rate": 6.444999999999999e-07,
+    "num_tokens": 488732.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.0493363738059998e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3585,
+    "step": 717
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011233491823077202,
+    "learning_rate": 6.44e-07,
+    "num_tokens": 489098.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.566965460777283e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.359,
+    "step": 718
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9603006839752197,
+    "learning_rate": 6.435e-07,
+    "num_tokens": 489994.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 4.37488779425621e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3595,
+    "step": 719
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019995439797639847,
+    "learning_rate": 6.43e-07,
+    "num_tokens": 490890.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 2.917274832725525e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.36,
+    "step": 720
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8033301830291748,
+    "learning_rate": 6.424999999999999e-07,
+    "num_tokens": 491786.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 2.3120082914829254e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3605,
+    "step": 721
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010354184778407216,
+    "learning_rate": 6.42e-07,
+    "num_tokens": 492152.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.347732126712799e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.361,
+    "step": 722
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002867473755031824,
+    "learning_rate": 6.414999999999999e-07,
+    "num_tokens": 493048.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.4817646741867065e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3615,
+    "step": 723
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009290321613661945,
+    "learning_rate": 6.41e-07,
+    "num_tokens": 493414.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.566911280155182e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.362,
+    "step": 724
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007650686893612146,
+    "learning_rate": 6.404999999999999e-07,
+    "num_tokens": 493780.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.9818544387817383e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3625,
+    "step": 725
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6412078738212585,
+    "learning_rate": 6.4e-07,
+    "num_tokens": 494676.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8790000081062317,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8790000081062317,
+    "reward_std": 0.0014141954015940428,
+    "kl": 3.480538725852966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.363,
+    "step": 726
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7075743079185486,
+    "learning_rate": 6.395e-07,
+    "num_tokens": 495572.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 2.76053324341774e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3635,
+    "step": 727
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00047449395060539246,
+    "learning_rate": 6.389999999999999e-07,
+    "num_tokens": 495938.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.3587996363639832e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.364,
+    "step": 728
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2251524925231934,
+    "learning_rate": 6.384999999999999e-07,
+    "num_tokens": 496834.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.720726817846298e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3645,
+    "step": 729
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7717981934547424,
+    "learning_rate": 6.38e-07,
+    "num_tokens": 497730.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.5860575735569e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.365,
+    "step": 730
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9186346530914307,
+    "learning_rate": 6.374999999999999e-07,
+    "num_tokens": 498626.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.0021212929859757423,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.0021212929859757423,
+    "kl": 6.904173642396927e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3655,
+    "step": 731
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.84583979845047,
+    "learning_rate": 6.37e-07,
+    "num_tokens": 499522.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.0543265640735626e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.366,
+    "step": 732
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004621327097993344,
+    "learning_rate": 6.365e-07,
+    "num_tokens": 499888.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.1827796697616577e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3665,
+    "step": 733
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00255565345287323,
+    "learning_rate": 6.36e-07,
+    "num_tokens": 500254.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 7.13299959897995e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.367,
+    "step": 734
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000824491202365607,
+    "learning_rate": 6.354999999999999e-07,
+    "num_tokens": 500620.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.7968700528144836e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3675,
+    "step": 735
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008618003339506686,
+    "learning_rate": 6.35e-07,
+    "num_tokens": 501516.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 2.316851168870926e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.368,
+    "step": 736
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6351233720779419,
+    "learning_rate": 6.344999999999999e-07,
+    "num_tokens": 502412.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 4.462525248527527e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3685,
+    "step": 737
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8174920678138733,
+    "learning_rate": 6.34e-07,
+    "num_tokens": 503308.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 7.361825555562973e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.369,
+    "step": 738
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008763825171627104,
+    "learning_rate": 6.335e-07,
+    "num_tokens": 503674.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.976747393608093e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3695,
+    "step": 739
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007347882492467761,
+    "learning_rate": 6.33e-07,
+    "num_tokens": 504040.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9280781745910645e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.37,
+    "step": 740
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013616685755550861,
+    "learning_rate": 6.324999999999999e-07,
+    "num_tokens": 504406.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.791002720594406e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3705,
+    "step": 741
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5727549195289612,
+    "learning_rate": 6.319999999999999e-07,
+    "num_tokens": 505302.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.479250103235245e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.371,
+    "step": 742
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005594661342911422,
+    "learning_rate": 6.314999999999999e-07,
+    "num_tokens": 505668.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.248026430606842e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3715,
+    "step": 743
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012528691440820694,
+    "learning_rate": 6.31e-07,
+    "num_tokens": 506034.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.9058737456798553e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.372,
+    "step": 744
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000664975494146347,
+    "learning_rate": 6.304999999999999e-07,
+    "num_tokens": 506400.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.109034150838852e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3725,
+    "step": 745
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 5.891997814178467,
+    "learning_rate": 6.3e-07,
+    "num_tokens": 507296.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0005017649382352829,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.373,
+    "step": 746
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009146234951913357,
+    "learning_rate": 6.295e-07,
+    "num_tokens": 507662.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.234444350004196e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3735,
+    "step": 747
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008638282888568938,
+    "learning_rate": 6.289999999999999e-07,
+    "num_tokens": 508028.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.175996243953705e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.374,
+    "step": 748
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9354413151741028,
+    "learning_rate": 6.284999999999999e-07,
+    "num_tokens": 508924.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 5.358457565307617e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3745,
+    "step": 749
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8698471784591675,
+    "learning_rate": 6.28e-07,
+    "num_tokens": 509820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.928970545530319e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.375,
+    "step": 750
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6731522679328918,
+    "learning_rate": 6.274999999999999e-07,
+    "num_tokens": 510716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.055154334753751755,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.055154334753751755,
+    "kl": 3.010593354701996e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3755,
+    "step": 751
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010692239739000797,
+    "learning_rate": 6.27e-07,
+    "num_tokens": 511082.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.608370363712311e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.376,
+    "step": 752
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004261866211891174,
+    "learning_rate": 6.265e-07,
+    "num_tokens": 511448.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2502616047859192e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3765,
+    "step": 753
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.618039608001709,
+    "learning_rate": 6.26e-07,
+    "num_tokens": 512344.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 2.420227974653244e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.377,
+    "step": 754
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010167269501835108,
+    "learning_rate": 6.254999999999999e-07,
+    "num_tokens": 512710.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.890918403863907e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3775,
+    "step": 755
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025685280561447144,
+    "learning_rate": 6.249999999999999e-07,
+    "num_tokens": 513076.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.952361971139908e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.378,
+    "step": 756
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007701526628807187,
+    "learning_rate": 6.245e-07,
+    "num_tokens": 513442.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9436702132225037e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3785,
+    "step": 757
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014547390164807439,
+    "learning_rate": 6.24e-07,
+    "num_tokens": 514338.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.708565443754196e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.379,
+    "step": 758
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010569763835519552,
+    "learning_rate": 6.235e-07,
+    "num_tokens": 514704.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9928982257843018e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3795,
+    "step": 759
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009250293951481581,
+    "learning_rate": 6.23e-07,
+    "num_tokens": 515600.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 3.913603723049164e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.38,
+    "step": 760
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012653374578803778,
+    "learning_rate": 6.225000000000001e-07,
+    "num_tokens": 515966.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.828294575214386e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3805,
+    "step": 761
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010828955564647913,
+    "learning_rate": 6.219999999999999e-07,
+    "num_tokens": 516332.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.467647522687912e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.381,
+    "step": 762
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002116474788635969,
+    "learning_rate": 6.215e-07,
+    "num_tokens": 516698.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.189725637435913e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3815,
+    "step": 763
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8476846814155579,
+    "learning_rate": 6.21e-07,
+    "num_tokens": 517594.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.846500039100647,
+    "rewards/environment_reward_verifier/std": 0.014849219471216202,
+    "reward": 0.846500039100647,
+    "reward_std": 0.014849220402538776,
+    "kl": 4.07882034778595e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.382,
+    "step": 764
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011961472919210792,
+    "learning_rate": 6.205e-07,
+    "num_tokens": 517960.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.249850124120712e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3825,
+    "step": 765
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7129542231559753,
+    "learning_rate": 6.2e-07,
+    "num_tokens": 518856.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 8.251797407865524e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.383,
+    "step": 766
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7722144722938538,
+    "learning_rate": 6.195000000000001e-07,
+    "num_tokens": 519752.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 4.004407674074173e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3835,
+    "step": 767
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015368679305538535,
+    "learning_rate": 6.189999999999999e-07,
+    "num_tokens": 520648.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.238464266061783e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.384,
+    "step": 768
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7801802754402161,
+    "learning_rate": 6.185e-07,
+    "num_tokens": 521544.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 5.952734500169754e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3845,
+    "step": 769
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008700647740624845,
+    "learning_rate": 6.18e-07,
+    "num_tokens": 521910.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.245007246732712e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.385,
+    "step": 770
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9259238839149475,
+    "learning_rate": 6.175e-07,
+    "num_tokens": 522806.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 3.273133188486099e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3855,
+    "step": 771
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014969698386266828,
+    "learning_rate": 6.17e-07,
+    "num_tokens": 523172.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5686807930469513e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.386,
+    "step": 772
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006186207756400108,
+    "learning_rate": 6.165e-07,
+    "num_tokens": 523538.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.09570774435997e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3865,
+    "step": 773
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1589457988739014,
+    "learning_rate": 6.16e-07,
+    "num_tokens": 524434.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.011313731782138348,
+    "kl": 4.557054489850998e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.387,
+    "step": 774
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005518601974472404,
+    "learning_rate": 6.155e-07,
+    "num_tokens": 524800.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.692360430955887e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3875,
+    "step": 775
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001120497123338282,
+    "learning_rate": 6.149999999999999e-07,
+    "num_tokens": 525166.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.9140693843364716e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.388,
+    "step": 776
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7982441782951355,
+    "learning_rate": 6.145e-07,
+    "num_tokens": 526062.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.4784508645534515e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3885,
+    "step": 777
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0027774127665907145,
+    "learning_rate": 6.14e-07,
+    "num_tokens": 526958.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.057244122028351e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.389,
+    "step": 778
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011340905912220478,
+    "learning_rate": 6.135e-07,
+    "num_tokens": 527324.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.678180605173111e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3895,
+    "step": 779
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006853631930425763,
+    "learning_rate": 6.13e-07,
+    "num_tokens": 527690.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7861446142196655e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.39,
+    "step": 780
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.009597169235348701,
+    "learning_rate": 6.125000000000001e-07,
+    "num_tokens": 528056.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00019149668514728546,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3905,
+    "step": 781
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004018091131001711,
+    "learning_rate": 6.119999999999999e-07,
+    "num_tokens": 528952.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.00010970886796712875,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.391,
+    "step": 782
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.126266360282898,
+    "learning_rate": 6.115e-07,
+    "num_tokens": 529848.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 5.193334072828293e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3915,
+    "step": 783
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.9128333330154419,
+    "learning_rate": 6.11e-07,
+    "num_tokens": 530744.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 2.9579736292362213e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.392,
+    "step": 784
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008193780086003244,
+    "learning_rate": 6.105e-07,
+    "num_tokens": 531110.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7962028980255127e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3925,
+    "step": 785
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7476780414581299,
+    "learning_rate": 6.1e-07,
+    "num_tokens": 532006.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 4.246272146701813e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.393,
+    "step": 786
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006282931426540017,
+    "learning_rate": 6.095e-07,
+    "num_tokens": 532372.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3266300559043884e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3935,
+    "step": 787
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.8928757905960083,
+    "learning_rate": 6.089999999999999e-07,
+    "num_tokens": 533268.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 7.044710218906403e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.394,
+    "step": 788
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.506048858165741,
+    "learning_rate": 6.085e-07,
+    "num_tokens": 534164.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 4.570838063955307e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3945,
+    "step": 789
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9309393763542175,
+    "learning_rate": 6.079999999999999e-07,
+    "num_tokens": 535060.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 6.131362169981003e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.395,
+    "step": 790
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010613016784191132,
+    "learning_rate": 6.075e-07,
+    "num_tokens": 535426.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.676116466522217e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3955,
+    "step": 791
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1940882205963135,
+    "learning_rate": 6.07e-07,
+    "num_tokens": 536322.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5734999775886536,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5734999775886536,
+    "reward_std": 0.27082186937332153,
+    "kl": 7.629208266735077e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.396,
+    "step": 792
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001403618953190744,
+    "learning_rate": 6.065e-07,
+    "num_tokens": 537218.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 4.445761442184448e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3965,
+    "step": 793
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009353617206215858,
+    "learning_rate": 6.06e-07,
+    "num_tokens": 537584.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.106387495994568e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.397,
+    "step": 794
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005145937902852893,
+    "learning_rate": 6.055e-07,
+    "num_tokens": 537950.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8003938496112823e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3975,
+    "step": 795
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008968059555627406,
+    "learning_rate": 6.049999999999999e-07,
+    "num_tokens": 538846.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.0,
+    "kl": 5.541834980249405e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.398,
+    "step": 796
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011200441513210535,
+    "learning_rate": 6.045e-07,
+    "num_tokens": 539212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.7895126044750214e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3985,
+    "step": 797
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002243278082460165,
+    "learning_rate": 6.04e-07,
+    "num_tokens": 540108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 6.118416786193848e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.399,
+    "step": 798
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012119788443669677,
+    "learning_rate": 6.035e-07,
+    "num_tokens": 541004.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.752244472503662e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.3995,
+    "step": 799
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011967993341386318,
+    "learning_rate": 6.03e-07,
+    "num_tokens": 541370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7150847017765045e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4,
+    "step": 800
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001629934529773891,
+    "learning_rate": 6.025000000000001e-07,
+    "num_tokens": 542266.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.935411900281906e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4005,
+    "step": 801
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8221452236175537,
+    "learning_rate": 6.019999999999999e-07,
+    "num_tokens": 543162.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 7.931981235742569e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.401,
+    "step": 802
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.007462856359779835,
+    "learning_rate": 6.015e-07,
+    "num_tokens": 543528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.3334981203079224e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4015,
+    "step": 803
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001739903469569981,
+    "learning_rate": 6.009999999999999e-07,
+    "num_tokens": 543894.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.858190029859543e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.402,
+    "step": 804
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5326638221740723,
+    "learning_rate": 6.005e-07,
+    "num_tokens": 544790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8400000333786011,
+    "rewards/environment_reward_verifier/std": 0.056568533182144165,
+    "reward": 0.8400000333786011,
+    "reward_std": 0.056568533182144165,
+    "kl": 1.197773963212967e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4025,
+    "step": 805
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001234200200997293,
+    "learning_rate": 6e-07,
+    "num_tokens": 545156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.440639168024063e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.403,
+    "step": 806
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015355065697804093,
+    "learning_rate": 5.995e-07,
+    "num_tokens": 545522.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.369858652353287e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4035,
+    "step": 807
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006882250891067088,
+    "learning_rate": 5.989999999999999e-07,
+    "num_tokens": 545888.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6108697056770325e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.404,
+    "step": 808
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 4.64975643157959,
+    "learning_rate": 5.985e-07,
+    "num_tokens": 546784.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 8.086487650871277e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4045,
+    "step": 809
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008724891813471913,
+    "learning_rate": 5.979999999999999e-07,
+    "num_tokens": 547150.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.3602118492126465e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.405,
+    "step": 810
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4123207628726959,
+    "learning_rate": 5.975e-07,
+    "num_tokens": 548046.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 1.1555850505828857e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4055,
+    "step": 811
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8788225054740906,
+    "learning_rate": 5.97e-07,
+    "num_tokens": 548942.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.427080810070038e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.406,
+    "step": 812
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000729935010895133,
+    "learning_rate": 5.965e-07,
+    "num_tokens": 549308.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.465769648551941e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4065,
+    "step": 813
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005977301043458283,
+    "learning_rate": 5.96e-07,
+    "num_tokens": 549674.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.3939104974269867e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.407,
+    "step": 814
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006024898029863834,
+    "learning_rate": 5.955e-07,
+    "num_tokens": 550040.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.8741004168987274e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4075,
+    "step": 815
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6240323185920715,
+    "learning_rate": 5.949999999999999e-07,
+    "num_tokens": 550936.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.796999990940094,
+    "rewards/environment_reward_verifier/std": 0.01272792648524046,
+    "reward": 0.796999990940094,
+    "reward_std": 0.01272792648524046,
+    "kl": 2.526957541704178e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.408,
+    "step": 816
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010339779546484351,
+    "learning_rate": 5.945e-07,
+    "num_tokens": 551302.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.389563739299774e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4085,
+    "step": 817
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001581298653036356,
+    "learning_rate": 5.939999999999999e-07,
+    "num_tokens": 551668.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.8718957006931305e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.409,
+    "step": 818
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028730963822454214,
+    "learning_rate": 5.935e-07,
+    "num_tokens": 552564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.765507325530052e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4095,
+    "step": 819
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5237371921539307,
+    "learning_rate": 5.93e-07,
+    "num_tokens": 553460.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7975000143051147,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.7975000143051147,
+    "reward_std": 0.06434673070907593,
+    "kl": 4.1239894926548004e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.41,
+    "step": 820
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.22981564700603485,
+    "learning_rate": 5.925e-07,
+    "num_tokens": 554356.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 8.274801075458527e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4105,
+    "step": 821
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000864826375618577,
+    "learning_rate": 5.919999999999999e-07,
+    "num_tokens": 554722.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.267584204673767e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.411,
+    "step": 822
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005777585902251303,
+    "learning_rate": 5.915e-07,
+    "num_tokens": 555618.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 3.0573923140764236e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4115,
+    "step": 823
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007653327193111181,
+    "learning_rate": 5.909999999999999e-07,
+    "num_tokens": 555984.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.0934268832206726e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.412,
+    "step": 824
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008081765263341367,
+    "learning_rate": 5.905e-07,
+    "num_tokens": 556350.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.2024458050727844e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4125,
+    "step": 825
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008603125461377203,
+    "learning_rate": 5.9e-07,
+    "num_tokens": 556716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.314949572086334e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.413,
+    "step": 826
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6024312973022461,
+    "learning_rate": 5.895e-07,
+    "num_tokens": 557612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.1016767024993896e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4135,
+    "step": 827
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9248777627944946,
+    "learning_rate": 5.89e-07,
+    "num_tokens": 558508.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.024041658267378807,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.024041658267378807,
+    "kl": 3.932788968086243e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.414,
+    "step": 828
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0024738821666687727,
+    "learning_rate": 5.885e-07,
+    "num_tokens": 559404.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 5.822349339723587e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4145,
+    "step": 829
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.48234227299690247,
+    "learning_rate": 5.879999999999999e-07,
+    "num_tokens": 560300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 1.576356589794159e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.415,
+    "step": 830
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009319159435108304,
+    "learning_rate": 5.875e-07,
+    "num_tokens": 561196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.444969817996025e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4155,
+    "step": 831
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010825677309185266,
+    "learning_rate": 5.87e-07,
+    "num_tokens": 562092.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.0588900446891785e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.416,
+    "step": 832
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5465240478515625,
+    "learning_rate": 5.865e-07,
+    "num_tokens": 562988.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 6.101001054048538e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4165,
+    "step": 833
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8875114321708679,
+    "learning_rate": 5.86e-07,
+    "num_tokens": 563884.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8109999895095825,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8109999895095825,
+    "reward_std": 0.01555635966360569,
+    "kl": 6.432924419641495e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.417,
+    "step": 834
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6885401010513306,
+    "learning_rate": 5.854999999999999e-07,
+    "num_tokens": 564780.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 4.6242959797382355e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4175,
+    "step": 835
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006994555704295635,
+    "learning_rate": 5.849999999999999e-07,
+    "num_tokens": 565146.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00016637705266475677,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.418,
+    "step": 836
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013478395994752645,
+    "learning_rate": 5.845e-07,
+    "num_tokens": 565512.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7138739824295044e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4185,
+    "step": 837
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005000046454370022,
+    "learning_rate": 5.839999999999999e-07,
+    "num_tokens": 565878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.910266190767288e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.419,
+    "step": 838
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.3202613592147827,
+    "learning_rate": 5.835e-07,
+    "num_tokens": 566774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 4.958640784025192e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4195,
+    "step": 839
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004527856130152941,
+    "learning_rate": 5.83e-07,
+    "num_tokens": 567670.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 9.60715115070343e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.42,
+    "step": 840
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012674469035118818,
+    "learning_rate": 5.825e-07,
+    "num_tokens": 568036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.963018000125885e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4205,
+    "step": 841
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.979890763759613,
+    "learning_rate": 5.819999999999999e-07,
+    "num_tokens": 568932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8450000286102295,
+    "rewards/environment_reward_verifier/std": 0.014142164029181004,
+    "reward": 0.8450000286102295,
+    "reward_std": 0.014142164029181004,
+    "kl": 5.4290518164634705e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.421,
+    "step": 842
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002009020186960697,
+    "learning_rate": 5.815e-07,
+    "num_tokens": 569298.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.473142325878143e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4215,
+    "step": 843
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000959740427788347,
+    "learning_rate": 5.809999999999999e-07,
+    "num_tokens": 569664.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.216524004936218e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.422,
+    "step": 844
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007338738651014864,
+    "learning_rate": 5.805e-07,
+    "num_tokens": 570030.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.0549243092536926e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4225,
+    "step": 845
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010351468808948994,
+    "learning_rate": 5.8e-07,
+    "num_tokens": 570926.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 3.2665207982063293e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.423,
+    "step": 846
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.825543165206909,
+    "learning_rate": 5.795e-07,
+    "num_tokens": 571822.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.039597976952791214,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.039597976952791214,
+    "kl": 6.438978016376495e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4235,
+    "step": 847
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006451636436395347,
+    "learning_rate": 5.79e-07,
+    "num_tokens": 572718.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.265535295009613e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.424,
+    "step": 848
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7045238018035889,
+    "learning_rate": 5.784999999999999e-07,
+    "num_tokens": 573614.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.598459392786026e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4245,
+    "step": 849
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010145172709599137,
+    "learning_rate": 5.779999999999999e-07,
+    "num_tokens": 573980.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.5431083738803864e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.425,
+    "step": 850
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021720363292843103,
+    "learning_rate": 5.775e-07,
+    "num_tokens": 574346.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.1764619052410126e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4255,
+    "step": 851
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5564368963241577,
+    "learning_rate": 5.769999999999999e-07,
+    "num_tokens": 575242.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8289999961853027,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8289999961853027,
+    "reward_std": 0.0014141954015940428,
+    "kl": 3.677885979413986e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.426,
+    "step": 852
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6709645986557007,
+    "learning_rate": 5.765e-07,
+    "num_tokens": 576138.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5989999771118164,
+    "rewards/environment_reward_verifier/std": 0.30971279740333557,
+    "reward": 0.5989999771118164,
+    "reward_std": 0.30971279740333557,
+    "kl": 3.970880061388016e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4265,
+    "step": 853
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8509161472320557,
+    "learning_rate": 5.76e-07,
+    "num_tokens": 577034.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 7.42059201002121e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.427,
+    "step": 854
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9860825538635254,
+    "learning_rate": 5.755e-07,
+    "num_tokens": 577930.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8285000324249268,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8285000324249268,
+    "reward_std": 0.030405621975660324,
+    "kl": 6.154272705316544e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4275,
+    "step": 855
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008337794570252299,
+    "learning_rate": 5.749999999999999e-07,
+    "num_tokens": 578296.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.50000336766243e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.428,
+    "step": 856
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8874496221542358,
+    "learning_rate": 5.745e-07,
+    "num_tokens": 579192.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8050000071525574,
+    "rewards/environment_reward_verifier/std": 0.01272792648524046,
+    "reward": 0.8050000071525574,
+    "reward_std": 0.01272792648524046,
+    "kl": 5.4119154810905457e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4285,
+    "step": 857
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4810936152935028,
+    "learning_rate": 5.739999999999999e-07,
+    "num_tokens": 580088.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.1266750991344452e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.429,
+    "step": 858
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000799552770331502,
+    "learning_rate": 5.735e-07,
+    "num_tokens": 580454.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.109406679868698e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4295,
+    "step": 859
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001031473628245294,
+    "learning_rate": 5.73e-07,
+    "num_tokens": 580820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.3907050490379333e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.43,
+    "step": 860
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7290229201316833,
+    "learning_rate": 5.725e-07,
+    "num_tokens": 581716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.884119749069214e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4305,
+    "step": 861
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011147563345730305,
+    "learning_rate": 5.719999999999999e-07,
+    "num_tokens": 582082.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.047900438308716e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.431,
+    "step": 862
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013581543462350965,
+    "learning_rate": 5.715e-07,
+    "num_tokens": 582978.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 4.9899332225322723e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4315,
+    "step": 863
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9787481427192688,
+    "learning_rate": 5.709999999999999e-07,
+    "num_tokens": 583874.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.582518547773361e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.432,
+    "step": 864
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002675174968317151,
+    "learning_rate": 5.705e-07,
+    "num_tokens": 584770.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 5.698762834072113e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4325,
+    "step": 865
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007517149788327515,
+    "learning_rate": 5.699999999999999e-07,
+    "num_tokens": 585666.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 3.350060433149338e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.433,
+    "step": 866
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011958049144595861,
+    "learning_rate": 5.695e-07,
+    "num_tokens": 586032.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.591699689626694e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4335,
+    "step": 867
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009895452531054616,
+    "learning_rate": 5.69e-07,
+    "num_tokens": 586928.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.904663026332855e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.434,
+    "step": 868
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.3839372396469116,
+    "learning_rate": 5.684999999999999e-07,
+    "num_tokens": 587824.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.609499990940094,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.609499990940094,
+    "reward_std": 0.32031938433647156,
+    "kl": 7.07460567355156e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4345,
+    "step": 869
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007765606278553605,
+    "learning_rate": 5.679999999999999e-07,
+    "num_tokens": 588720.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.7239322662353516e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.435,
+    "step": 870
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011798151535913348,
+    "learning_rate": 5.675e-07,
+    "num_tokens": 589086.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7165748178958893e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4355,
+    "step": 871
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6472865343093872,
+    "learning_rate": 5.669999999999999e-07,
+    "num_tokens": 589982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.387965261936188e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.436,
+    "step": 872
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7618951797485352,
+    "learning_rate": 5.665e-07,
+    "num_tokens": 590878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 4.90797683596611e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4365,
+    "step": 873
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013739175628870726,
+    "learning_rate": 5.66e-07,
+    "num_tokens": 591244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.353917807340622e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.437,
+    "step": 874
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8317199945449829,
+    "learning_rate": 5.655e-07,
+    "num_tokens": 592140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.7659890949726105e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4375,
+    "step": 875
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7165759801864624,
+    "learning_rate": 5.649999999999999e-07,
+    "num_tokens": 593036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8100000023841858,
+    "rewards/environment_reward_verifier/std": 0.014142122119665146,
+    "reward": 0.8100000023841858,
+    "reward_std": 0.014142122119665146,
+    "kl": 3.2602809369564056e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.438,
+    "step": 876
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.012723397463560104,
+    "learning_rate": 5.645e-07,
+    "num_tokens": 593932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8429999947547913,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8429999947547913,
+    "reward_std": 0.0,
+    "kl": 5.6617893278598785e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4385,
+    "step": 877
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.776158332824707,
+    "learning_rate": 5.639999999999999e-07,
+    "num_tokens": 594828.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 3.9394013583660126e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.439,
+    "step": 878
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008882369729690254,
+    "learning_rate": 5.635e-07,
+    "num_tokens": 595194.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5136396288871765e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4395,
+    "step": 879
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.4940199851989746,
+    "learning_rate": 5.629999999999999e-07,
+    "num_tokens": 596090.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.011313731782138348,
+    "kl": 0.0009514158591628075,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.44,
+    "step": 880
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9574906826019287,
+    "learning_rate": 5.625e-07,
+    "num_tokens": 596986.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 5.468260496854782e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4405,
+    "step": 881
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001270653447136283,
+    "learning_rate": 5.620000000000001e-07,
+    "num_tokens": 597882.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.908163100481033e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.441,
+    "step": 882
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9686869978904724,
+    "learning_rate": 5.614999999999999e-07,
+    "num_tokens": 598778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 9.389035403728485e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4415,
+    "step": 883
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009024463943205774,
+    "learning_rate": 5.61e-07,
+    "num_tokens": 599144.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.2508356273174286e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.442,
+    "step": 884
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011521761771291494,
+    "learning_rate": 5.605e-07,
+    "num_tokens": 600040.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 4.3111853301525116e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4425,
+    "step": 885
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008811916341073811,
+    "learning_rate": 5.6e-07,
+    "num_tokens": 600406.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.8091872334480286e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.443,
+    "step": 886
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005357464542612433,
+    "learning_rate": 5.595e-07,
+    "num_tokens": 600772.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.8646009266376495e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4435,
+    "step": 887
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012236462207511067,
+    "learning_rate": 5.590000000000001e-07,
+    "num_tokens": 601668.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.382999986410141,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.382999986410141,
+    "reward_std": 0.0,
+    "kl": 3.3863820135593414e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.444,
+    "step": 888
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015359098324552178,
+    "learning_rate": 5.584999999999999e-07,
+    "num_tokens": 602564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 7.446110248565674e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4445,
+    "step": 889
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7075293660163879,
+    "learning_rate": 5.58e-07,
+    "num_tokens": 603460.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 2.532079815864563e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.445,
+    "step": 890
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6647194027900696,
+    "learning_rate": 5.575e-07,
+    "num_tokens": 604356.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 2.183765172958374e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4455,
+    "step": 891
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005753295263275504,
+    "learning_rate": 5.57e-07,
+    "num_tokens": 604722.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.3801269233226776e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.446,
+    "step": 892
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006327761220745742,
+    "learning_rate": 5.565e-07,
+    "num_tokens": 605088.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9845163226127625e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4465,
+    "step": 893
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0625728368759155,
+    "learning_rate": 5.560000000000001e-07,
+    "num_tokens": 605984.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.06434673070907593,
+    "kl": 2.457946538925171e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.447,
+    "step": 894
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012178801698610187,
+    "learning_rate": 5.555e-07,
+    "num_tokens": 606880.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.2179209887981415e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4475,
+    "step": 895
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002682629507035017,
+    "learning_rate": 5.55e-07,
+    "num_tokens": 607776.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 4.859268665313721e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.448,
+    "step": 896
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.45517367124557495,
+    "learning_rate": 5.544999999999999e-07,
+    "num_tokens": 608672.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5924999713897705,
+    "rewards/environment_reward_verifier/std": 0.3019345998764038,
+    "reward": 0.5924999713897705,
+    "reward_std": 0.3019345700740814,
+    "kl": 1.2828037142753601e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4485,
+    "step": 897
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000905574590433389,
+    "learning_rate": 5.54e-07,
+    "num_tokens": 609038.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.830902278423309e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.449,
+    "step": 898
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.8212804794311523,
+    "learning_rate": 5.535e-07,
+    "num_tokens": 609934.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 0.0011572809889912605,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4495,
+    "step": 899
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000676330178976059,
+    "learning_rate": 5.53e-07,
+    "num_tokens": 610830.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 2.8536655008792877e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.45,
+    "step": 900
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011877953074872494,
+    "learning_rate": 5.525e-07,
+    "num_tokens": 611196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3439526557922363e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4505,
+    "step": 901
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007618311792612076,
+    "learning_rate": 5.520000000000001e-07,
+    "num_tokens": 611562.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.4904886484146118e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.451,
+    "step": 902
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006666177650913596,
+    "learning_rate": 5.514999999999999e-07,
+    "num_tokens": 611928.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9773451387882233e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4515,
+    "step": 903
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002373509109020233,
+    "learning_rate": 5.51e-07,
+    "num_tokens": 612824.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.090756505727768e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.452,
+    "step": 904
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008277193992398679,
+    "learning_rate": 5.505e-07,
+    "num_tokens": 613720.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.119984805583954e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4525,
+    "step": 905
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009345367434434593,
+    "learning_rate": 5.5e-07,
+    "num_tokens": 614086.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.3725442588329315e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.453,
+    "step": 906
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.4221453666687012,
+    "learning_rate": 5.495e-07,
+    "num_tokens": 614982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 0.00010339450091123581,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4535,
+    "step": 907
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000370870839105919,
+    "learning_rate": 5.490000000000001e-07,
+    "num_tokens": 615878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 1.245737075805664e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.454,
+    "step": 908
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.78106290102005,
+    "learning_rate": 5.484999999999999e-07,
+    "num_tokens": 616774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7904999852180481,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7904999852180481,
+    "reward_std": 0.037476640194654465,
+    "kl": 3.344472497701645e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4545,
+    "step": 909
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025292513892054558,
+    "learning_rate": 5.48e-07,
+    "num_tokens": 617140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.578009247779846e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.455,
+    "step": 910
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011718255700543523,
+    "learning_rate": 5.474999999999999e-07,
+    "num_tokens": 617506.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.5919401347637177e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4555,
+    "step": 911
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2116985321044922,
+    "learning_rate": 5.47e-07,
+    "num_tokens": 618402.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 7.627252489328384e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.456,
+    "step": 912
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1670100688934326,
+    "learning_rate": 5.465e-07,
+    "num_tokens": 619298.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 6.155204027891159e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4565,
+    "step": 913
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.656712532043457,
+    "learning_rate": 5.46e-07,
+    "num_tokens": 620194.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.2359192371368408e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.457,
+    "step": 914
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8736714124679565,
+    "learning_rate": 5.455e-07,
+    "num_tokens": 621090.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5900000333786011,
+    "rewards/environment_reward_verifier/std": 0.29698485136032104,
+    "reward": 0.5900000333786011,
+    "reward_std": 0.29698485136032104,
+    "kl": 3.801286220550537e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4575,
+    "step": 915
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7588840126991272,
+    "learning_rate": 5.45e-07,
+    "num_tokens": 621986.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.564691334962845e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.458,
+    "step": 916
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008407433633692563,
+    "learning_rate": 5.444999999999999e-07,
+    "num_tokens": 622882.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.4014304876327515e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4585,
+    "step": 917
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5819631218910217,
+    "learning_rate": 5.44e-07,
+    "num_tokens": 623778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 3.1919218599796295e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.459,
+    "step": 918
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5659723281860352,
+    "learning_rate": 5.435e-07,
+    "num_tokens": 624674.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5900000333786011,
+    "rewards/environment_reward_verifier/std": 0.29698485136032104,
+    "reward": 0.5900000333786011,
+    "reward_std": 0.29698485136032104,
+    "kl": 5.887821316719055e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4595,
+    "step": 919
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001182614709250629,
+    "learning_rate": 5.43e-07,
+    "num_tokens": 625040.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.116911441087723e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.46,
+    "step": 920
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0874000787734985,
+    "learning_rate": 5.425e-07,
+    "num_tokens": 625936.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.06434673070907593,
+    "kl": 4.7031790018081665e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4605,
+    "step": 921
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7091130018234253,
+    "learning_rate": 5.420000000000001e-07,
+    "num_tokens": 626832.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.444124013185501e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.461,
+    "step": 922
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008175342227332294,
+    "learning_rate": 5.414999999999999e-07,
+    "num_tokens": 627198.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.716442734003067e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4615,
+    "step": 923
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007053024601191282,
+    "learning_rate": 5.41e-07,
+    "num_tokens": 627564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.289617598056793e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.462,
+    "step": 924
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003715792205184698,
+    "learning_rate": 5.405e-07,
+    "num_tokens": 627930.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.268693298101425e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4625,
+    "step": 925
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013841136824339628,
+    "learning_rate": 5.4e-07,
+    "num_tokens": 628826.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.133116453886032e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.463,
+    "step": 926
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.3961053192615509,
+    "learning_rate": 5.395e-07,
+    "num_tokens": 629722.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7944999933242798,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7944999933242798,
+    "reward_std": 0.0502045676112175,
+    "kl": 9.655952453613281e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4635,
+    "step": 927
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015052658272907138,
+    "learning_rate": 5.39e-07,
+    "num_tokens": 630088.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.967341035604477e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.464,
+    "step": 928
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00031154241878539324,
+    "learning_rate": 5.384999999999999e-07,
+    "num_tokens": 630454.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.813345968723297e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4645,
+    "step": 929
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005336882313713431,
+    "learning_rate": 5.38e-07,
+    "num_tokens": 630820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.9521452486515045e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.465,
+    "step": 930
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0018927346682175994,
+    "learning_rate": 5.374999999999999e-07,
+    "num_tokens": 631716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 6.585754454135895e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4655,
+    "step": 931
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0327850580215454,
+    "learning_rate": 5.37e-07,
+    "num_tokens": 632612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8365000486373901,
+    "rewards/environment_reward_verifier/std": 0.026162952184677124,
+    "reward": 0.8365000486373901,
+    "reward_std": 0.026162952184677124,
+    "kl": 5.525583401322365e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.466,
+    "step": 932
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016987278359010816,
+    "learning_rate": 5.365e-07,
+    "num_tokens": 632978.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.136205047369003e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4665,
+    "step": 933
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009261802188120782,
+    "learning_rate": 5.36e-07,
+    "num_tokens": 633344.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.399886190891266e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.467,
+    "step": 934
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008992516668513417,
+    "learning_rate": 5.355e-07,
+    "num_tokens": 634240.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 4.233699291944504e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4675,
+    "step": 935
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9115592241287231,
+    "learning_rate": 5.35e-07,
+    "num_tokens": 635136.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.824999988079071,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.824999988079071,
+    "reward_std": 0.011313731782138348,
+    "kl": 4.604365676641464e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.468,
+    "step": 936
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007278263801708817,
+    "learning_rate": 5.344999999999999e-07,
+    "num_tokens": 636032.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 3.4401193261146545e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4685,
+    "step": 937
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010212017223238945,
+    "learning_rate": 5.34e-07,
+    "num_tokens": 636928.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 4.621315747499466e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.469,
+    "step": 938
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007903206860646605,
+    "learning_rate": 5.335e-07,
+    "num_tokens": 637824.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8349999785423279,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8349999785423279,
+    "reward_std": 0.0,
+    "kl": 3.7049874663352966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4695,
+    "step": 939
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013730695936828852,
+    "learning_rate": 5.33e-07,
+    "num_tokens": 638190.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.6928955018520355e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.47,
+    "step": 940
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7030513882637024,
+    "learning_rate": 5.325e-07,
+    "num_tokens": 639086.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 2.5019049644470215e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4705,
+    "step": 941
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.9748480916023254,
+    "learning_rate": 5.32e-07,
+    "num_tokens": 639982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 4.683062434196472e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.471,
+    "step": 942
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008724030922167003,
+    "learning_rate": 5.314999999999999e-07,
+    "num_tokens": 640878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 2.5467947125434875e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4715,
+    "step": 943
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0023628976196050644,
+    "learning_rate": 5.31e-07,
+    "num_tokens": 641244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.564450889825821e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.472,
+    "step": 944
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7218869924545288,
+    "learning_rate": 5.304999999999999e-07,
+    "num_tokens": 642140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 1.4922581613063812e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4725,
+    "step": 945
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009410440688952804,
+    "learning_rate": 5.3e-07,
+    "num_tokens": 642506.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.3725594878196716e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.473,
+    "step": 946
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9045856595039368,
+    "learning_rate": 5.295e-07,
+    "num_tokens": 643402.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8365000486373901,
+    "rewards/environment_reward_verifier/std": 0.01909189112484455,
+    "reward": 0.8365000486373901,
+    "reward_std": 0.01909189112484455,
+    "kl": 3.302842378616333e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4735,
+    "step": 947
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006632182630710304,
+    "learning_rate": 5.29e-07,
+    "num_tokens": 644298.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 2.4668872356414795e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.474,
+    "step": 948
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006489086663350463,
+    "learning_rate": 5.284999999999999e-07,
+    "num_tokens": 644664.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.09748575091362e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4745,
+    "step": 949
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9527900815010071,
+    "learning_rate": 5.28e-07,
+    "num_tokens": 645560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 6.148312240839005e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.475,
+    "step": 950
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9770010113716125,
+    "learning_rate": 5.274999999999999e-07,
+    "num_tokens": 646456.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.6250799894332886e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4755,
+    "step": 951
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007939549977891147,
+    "learning_rate": 5.27e-07,
+    "num_tokens": 647352.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 3.37185338139534e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.476,
+    "step": 952
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007053684676066041,
+    "learning_rate": 5.265e-07,
+    "num_tokens": 647718.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.0064024031162262e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4765,
+    "step": 953
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.06403394043445587,
+    "learning_rate": 5.26e-07,
+    "num_tokens": 648614.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 0.001065908931195736,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.477,
+    "step": 954
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7209022641181946,
+    "learning_rate": 5.255e-07,
+    "num_tokens": 649510.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.011313731782138348,
+    "kl": 4.2875297367572784e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4775,
+    "step": 955
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00426756776869297,
+    "learning_rate": 5.25e-07,
+    "num_tokens": 650406.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8230000138282776,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8230000138282776,
+    "reward_std": 0.0,
+    "kl": 0.00011035241186618805,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.478,
+    "step": 956
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001966584473848343,
+    "learning_rate": 5.244999999999999e-07,
+    "num_tokens": 650772.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.261095404624939e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4785,
+    "step": 957
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5687603950500488,
+    "learning_rate": 5.24e-07,
+    "num_tokens": 651668.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.075692802667618e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.479,
+    "step": 958
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005653072148561478,
+    "learning_rate": 5.234999999999999e-07,
+    "num_tokens": 652034.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.505071461200714e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4795,
+    "step": 959
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004983440041542053,
+    "learning_rate": 5.23e-07,
+    "num_tokens": 652930.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 8.590333163738251e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.48,
+    "step": 960
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006832435610704124,
+    "learning_rate": 5.225e-07,
+    "num_tokens": 653826.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.18955460190773e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4805,
+    "step": 961
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007571274181827903,
+    "learning_rate": 5.22e-07,
+    "num_tokens": 654192.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.937018871307373e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.481,
+    "step": 962
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010364153422415257,
+    "learning_rate": 5.214999999999999e-07,
+    "num_tokens": 654558.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.4516135454177856e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4815,
+    "step": 963
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011270501418039203,
+    "learning_rate": 5.21e-07,
+    "num_tokens": 654924.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.379132926464081e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.482,
+    "step": 964
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1790162324905396,
+    "learning_rate": 5.204999999999999e-07,
+    "num_tokens": 655820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 4.971399903297424e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4825,
+    "step": 965
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014127911999821663,
+    "learning_rate": 5.2e-07,
+    "num_tokens": 656716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7829999923706055,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7829999923706055,
+    "reward_std": 0.0,
+    "kl": 5.042552947998047e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.483,
+    "step": 966
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7780529856681824,
+    "learning_rate": 5.195e-07,
+    "num_tokens": 657612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.06434673070907593,
+    "kl": 6.663426756858826e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4835,
+    "step": 967
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001735977828502655,
+    "learning_rate": 5.19e-07,
+    "num_tokens": 657978.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.362143903970718e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.484,
+    "step": 968
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010887464741244912,
+    "learning_rate": 5.184999999999999e-07,
+    "num_tokens": 658344.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.819167613983154e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4845,
+    "step": 969
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8512638807296753,
+    "learning_rate": 5.18e-07,
+    "num_tokens": 659240.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8050000071525574,
+    "rewards/environment_reward_verifier/std": 0.01272792648524046,
+    "reward": 0.8050000071525574,
+    "reward_std": 0.01272792648524046,
+    "kl": 3.4036580473184586e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.485,
+    "step": 970
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001590660191141069,
+    "learning_rate": 5.174999999999999e-07,
+    "num_tokens": 659606.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.096236079931259e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4855,
+    "step": 971
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003125761868432164,
+    "learning_rate": 5.17e-07,
+    "num_tokens": 659972.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.1511841118335724e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.486,
+    "step": 972
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008358623599633574,
+    "learning_rate": 5.164999999999999e-07,
+    "num_tokens": 660868.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 4.815123975276947e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4865,
+    "step": 973
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006493424880318344,
+    "learning_rate": 5.16e-07,
+    "num_tokens": 661764.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.00602987408638e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.487,
+    "step": 974
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005122573347762227,
+    "learning_rate": 5.155e-07,
+    "num_tokens": 662660.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8230000138282776,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8230000138282776,
+    "reward_std": 0.0,
+    "kl": 2.6183202862739563e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4875,
+    "step": 975
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013554071774706244,
+    "learning_rate": 5.149999999999999e-07,
+    "num_tokens": 663556.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 3.3993273973464966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.488,
+    "step": 976
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001144697074778378,
+    "learning_rate": 5.144999999999999e-07,
+    "num_tokens": 663922.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.336463123559952e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4885,
+    "step": 977
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025168475694954395,
+    "learning_rate": 5.14e-07,
+    "num_tokens": 664818.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 6.39837235212326e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.489,
+    "step": 978
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009632411529310048,
+    "learning_rate": 5.134999999999999e-07,
+    "num_tokens": 665184.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.3915042877197266e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4895,
+    "step": 979
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008115009986795485,
+    "learning_rate": 5.13e-07,
+    "num_tokens": 665550.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.3784505426883698e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.49,
+    "step": 980
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017039045924320817,
+    "learning_rate": 5.125e-07,
+    "num_tokens": 665916.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.642868250608444e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4905,
+    "step": 981
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.711256742477417,
+    "learning_rate": 5.12e-07,
+    "num_tokens": 666812.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 4.299357533454895e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.491,
+    "step": 982
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006743049598298967,
+    "learning_rate": 5.114999999999999e-07,
+    "num_tokens": 667178.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3412518203258514e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4915,
+    "step": 983
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012645031092688441,
+    "learning_rate": 5.11e-07,
+    "num_tokens": 667544.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.6438148021698e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.492,
+    "step": 984
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.116913080215454,
+    "learning_rate": 5.104999999999999e-07,
+    "num_tokens": 668440.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7999999523162842,
+    "rewards/environment_reward_verifier/std": 0.04949747025966644,
+    "reward": 0.7999999523162842,
+    "reward_std": 0.04949747025966644,
+    "kl": 6.992463022470474e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4925,
+    "step": 985
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014276455622166395,
+    "learning_rate": 5.1e-07,
+    "num_tokens": 668806.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.637947469949722e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.493,
+    "step": 986
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000873086741194129,
+    "learning_rate": 5.095e-07,
+    "num_tokens": 669172.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.7686899304389954e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4935,
+    "step": 987
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.574111819267273,
+    "learning_rate": 5.09e-07,
+    "num_tokens": 670068.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 3.855861723423004e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.494,
+    "step": 988
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6999775171279907,
+    "learning_rate": 5.085e-07,
+    "num_tokens": 670964.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 2.8043054044246674e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4945,
+    "step": 989
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009233710006810725,
+    "learning_rate": 5.079999999999999e-07,
+    "num_tokens": 671330.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.8283877074718475e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.495,
+    "step": 990
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.24552400410175323,
+    "learning_rate": 5.074999999999999e-07,
+    "num_tokens": 672226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.004242670256644487,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.004242670256644487,
+    "kl": 5.236826837062836e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4955,
+    "step": 991
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8669341802597046,
+    "learning_rate": 5.07e-07,
+    "num_tokens": 673122.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8264999985694885,
+    "rewards/environment_reward_verifier/std": 0.004949725698679686,
+    "reward": 0.8264999985694885,
+    "reward_std": 0.004949725698679686,
+    "kl": 5.610194057226181e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.496,
+    "step": 992
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009756143554113805,
+    "learning_rate": 5.064999999999999e-07,
+    "num_tokens": 673488.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.3435411751270294e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4965,
+    "step": 993
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002642970299348235,
+    "learning_rate": 5.06e-07,
+    "num_tokens": 673854.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.523100167512894e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.497,
+    "step": 994
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025872448459267616,
+    "learning_rate": 5.055e-07,
+    "num_tokens": 674220.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.0001097600907087326,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4975,
+    "step": 995
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7565536499023438,
+    "learning_rate": 5.049999999999999e-07,
+    "num_tokens": 675116.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.01555635966360569,
+    "kl": 3.309641033411026e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.498,
+    "step": 996
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005875544156879187,
+    "learning_rate": 5.044999999999999e-07,
+    "num_tokens": 675482.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.8343329429626465e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4985,
+    "step": 997
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006418801844120026,
+    "learning_rate": 5.04e-07,
+    "num_tokens": 675848.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.209205508232117e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.499,
+    "step": 998
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005877927760593593,
+    "learning_rate": 5.034999999999999e-07,
+    "num_tokens": 676744.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.0,
+    "kl": 2.3884698748588562e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.4995,
+    "step": 999
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007023665821179748,
+    "learning_rate": 5.03e-07,
+    "num_tokens": 677640.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8560000061988831,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8560000061988831,
+    "reward_std": 0.0,
+    "kl": 3.754999488592148e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5,
+    "step": 1000
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8347640633583069,
+    "learning_rate": 5.025e-07,
+    "num_tokens": 678536.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8144999742507935,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8144999742507935,
+    "reward_std": 0.0035355305299162865,
+    "kl": 4.554633051156998e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5005,
+    "step": 1001
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0682181119918823,
+    "learning_rate": 5.02e-07,
+    "num_tokens": 679432.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8140000104904175,
+    "rewards/environment_reward_verifier/std": 0.002828432945534587,
+    "reward": 0.8140000104904175,
+    "reward_std": 0.002828432945534587,
+    "kl": 0.00010714586824178696,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.501,
+    "step": 1002
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7141183018684387,
+    "learning_rate": 5.014999999999999e-07,
+    "num_tokens": 680328.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.0689872801303864e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5015,
+    "step": 1003
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013398455921560526,
+    "learning_rate": 5.009999999999999e-07,
+    "num_tokens": 680694.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.019921809434891e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.502,
+    "step": 1004
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013964761747047305,
+    "learning_rate": 5.004999999999999e-07,
+    "num_tokens": 681060.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.270688027143478e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5025,
+    "step": 1005
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015274528414011002,
+    "learning_rate": 5e-07,
+    "num_tokens": 681426.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.6170706152915955e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.503,
+    "step": 1006
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006098856101743877,
+    "learning_rate": 4.994999999999999e-07,
+    "num_tokens": 681792.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.366025000810623e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5035,
+    "step": 1007
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028049976099282503,
+    "learning_rate": 4.99e-07,
+    "num_tokens": 682158.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.973301500082016e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.504,
+    "step": 1008
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001014014589600265,
+    "learning_rate": 4.985e-07,
+    "num_tokens": 682524.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.2168813049793243e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5045,
+    "step": 1009
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006871579680591822,
+    "learning_rate": 4.979999999999999e-07,
+    "num_tokens": 683420.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.037190228700638e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.505,
+    "step": 1010
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.6453120708465576,
+    "learning_rate": 4.975e-07,
+    "num_tokens": 684316.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8240000009536743,
+    "rewards/environment_reward_verifier/std": 0.015556317754089832,
+    "reward": 0.8240000009536743,
+    "reward_std": 0.015556317754089832,
+    "kl": 0.0003169504925608635,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5055,
+    "step": 1011
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7730938196182251,
+    "learning_rate": 4.97e-07,
+    "num_tokens": 685212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 4.6455301344394684e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.506,
+    "step": 1012
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013291386421769857,
+    "learning_rate": 4.964999999999999e-07,
+    "num_tokens": 686108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 6.316695362329483e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5065,
+    "step": 1013
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015565111534669995,
+    "learning_rate": 4.96e-07,
+    "num_tokens": 686474.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.946533590555191e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.507,
+    "step": 1014
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8053126335144043,
+    "learning_rate": 4.955e-07,
+    "num_tokens": 687370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 4.605855792760849e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5075,
+    "step": 1015
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013168035075068474,
+    "learning_rate": 4.95e-07,
+    "num_tokens": 687736.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.0020404160022736e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.508,
+    "step": 1016
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6808350086212158,
+    "learning_rate": 4.945e-07,
+    "num_tokens": 688632.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8105000257492065,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8105000257492065,
+    "reward_std": 0.06434673070907593,
+    "kl": 1.3706274330615997e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5085,
+    "step": 1017
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008983907173387706,
+    "learning_rate": 4.94e-07,
+    "num_tokens": 688998.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.1688640117645264e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.509,
+    "step": 1018
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004645304870791733,
+    "learning_rate": 4.935e-07,
+    "num_tokens": 689364.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.466553658246994e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5095,
+    "step": 1019
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6623954176902771,
+    "learning_rate": 4.93e-07,
+    "num_tokens": 690260.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7879999876022339,
+    "rewards/environment_reward_verifier/std": 0.05091170594096184,
+    "reward": 0.7879999876022339,
+    "reward_std": 0.05091170594096184,
+    "kl": 5.1676295697689056e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.51,
+    "step": 1020
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0022292693611234426,
+    "learning_rate": 4.924999999999999e-07,
+    "num_tokens": 691156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.382765084505081e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5105,
+    "step": 1021
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006294287159107625,
+    "learning_rate": 4.92e-07,
+    "num_tokens": 692052.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 1.8159858882427216e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.511,
+    "step": 1022
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001646587741561234,
+    "learning_rate": 4.915e-07,
+    "num_tokens": 692948.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3790000081062317,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3790000081062317,
+    "reward_std": 0.0,
+    "kl": 6.076321005821228e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5115,
+    "step": 1023
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003970656078308821,
+    "learning_rate": 4.909999999999999e-07,
+    "num_tokens": 693314.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.349051207304001e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.512,
+    "step": 1024
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.3712973594665527,
+    "learning_rate": 4.905e-07,
+    "num_tokens": 694210.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8044999837875366,
+    "rewards/environment_reward_verifier/std": 0.012020829133689404,
+    "reward": 0.8044999837875366,
+    "reward_std": 0.012020829133689404,
+    "kl": 5.5252574384212494e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5125,
+    "step": 1025
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7226940989494324,
+    "learning_rate": 4.9e-07,
+    "num_tokens": 695106.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.037136048078537e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.513,
+    "step": 1026
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7758554816246033,
+    "learning_rate": 4.894999999999999e-07,
+    "num_tokens": 696002.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.376362681388855e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5135,
+    "step": 1027
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011743708746507764,
+    "learning_rate": 4.89e-07,
+    "num_tokens": 696368.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.008280277252197e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.514,
+    "step": 1028
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008045915747061372,
+    "learning_rate": 4.885e-07,
+    "num_tokens": 696734.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.055428922176361e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5145,
+    "step": 1029
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016251134220510721,
+    "learning_rate": 4.879999999999999e-07,
+    "num_tokens": 697100.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.6836212277412415e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.515,
+    "step": 1030
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009004175080917776,
+    "learning_rate": 4.875e-07,
+    "num_tokens": 697466.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.1818635761737823e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5155,
+    "step": 1031
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000870404823217541,
+    "learning_rate": 4.87e-07,
+    "num_tokens": 697832.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.290137439966202e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.516,
+    "step": 1032
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008007647120393813,
+    "learning_rate": 4.864999999999999e-07,
+    "num_tokens": 698198.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.1054561734199524e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5165,
+    "step": 1033
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012625895906239748,
+    "learning_rate": 4.86e-07,
+    "num_tokens": 699094.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 5.473196506500244e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.517,
+    "step": 1034
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8870932459831238,
+    "learning_rate": 4.854999999999999e-07,
+    "num_tokens": 699990.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 4.998687654733658e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5175,
+    "step": 1035
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 5.1996870040893555,
+    "learning_rate": 4.85e-07,
+    "num_tokens": 700886.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8109999895095825,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8109999895095825,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0008062655106186867,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.518,
+    "step": 1036
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9224255084991455,
+    "learning_rate": 4.845e-07,
+    "num_tokens": 701782.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.08909548819065094,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.08909548819065094,
+    "kl": 8.533895015716553e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5185,
+    "step": 1037
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9159997701644897,
+    "learning_rate": 4.839999999999999e-07,
+    "num_tokens": 702678.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 0.00010907184332609177,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.519,
+    "step": 1038
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9420398473739624,
+    "learning_rate": 4.835e-07,
+    "num_tokens": 703574.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.331620246171951e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5195,
+    "step": 1039
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006412892253138125,
+    "learning_rate": 4.83e-07,
+    "num_tokens": 703940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.81589275598526e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.52,
+    "step": 1040
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011514879297465086,
+    "learning_rate": 4.824999999999999e-07,
+    "num_tokens": 704836.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.644785076379776e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5205,
+    "step": 1041
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7989395260810852,
+    "learning_rate": 4.82e-07,
+    "num_tokens": 705732.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8374999761581421,
+    "rewards/environment_reward_verifier/std": 0.026162952184677124,
+    "reward": 0.8374999761581421,
+    "reward_std": 0.026162952184677124,
+    "kl": 4.004035145044327e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.521,
+    "step": 1042
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7823817133903503,
+    "learning_rate": 4.815e-07,
+    "num_tokens": 706628.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 5.509518086910248e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5215,
+    "step": 1043
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010213347850367427,
+    "learning_rate": 4.809999999999999e-07,
+    "num_tokens": 706994.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.8906000554561615e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.522,
+    "step": 1044
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000587350397836417,
+    "learning_rate": 4.805e-07,
+    "num_tokens": 707890.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.326536923646927e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5225,
+    "step": 1045
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.244295358657837,
+    "learning_rate": 4.8e-07,
+    "num_tokens": 708786.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 8.475873619318008e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.523,
+    "step": 1046
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.5794961452484131,
+    "learning_rate": 4.794999999999999e-07,
+    "num_tokens": 709682.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 1.4612451195716858e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5235,
+    "step": 1047
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013103070668876171,
+    "learning_rate": 4.79e-07,
+    "num_tokens": 710578.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.042925477027893e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.524,
+    "step": 1048
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006897756247781217,
+    "learning_rate": 4.785e-07,
+    "num_tokens": 711474.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.652740269899368e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5245,
+    "step": 1049
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001127156661823392,
+    "learning_rate": 4.779999999999999e-07,
+    "num_tokens": 712370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8360000252723694,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8360000252723694,
+    "reward_std": 0.0,
+    "kl": 4.3822452425956726e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.525,
+    "step": 1050
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9209012985229492,
+    "learning_rate": 4.775e-07,
+    "num_tokens": 713266.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 8.319783955812454e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5255,
+    "step": 1051
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004929061979055405,
+    "learning_rate": 4.769999999999999e-07,
+    "num_tokens": 713632.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.4474615454673767e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.526,
+    "step": 1052
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008575913379900157,
+    "learning_rate": 4.7649999999999996e-07,
+    "num_tokens": 714528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 4.644319415092468e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5265,
+    "step": 1053
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010711499489843845,
+    "learning_rate": 4.76e-07,
+    "num_tokens": 714894.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.60710546374321e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.527,
+    "step": 1054
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.4542863368988037,
+    "learning_rate": 4.7549999999999994e-07,
+    "num_tokens": 715790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8244999647140503,
+    "rewards/environment_reward_verifier/std": 0.010606633499264717,
+    "reward": 0.8244999647140503,
+    "reward_std": 0.010606633499264717,
+    "kl": 4.874635487794876e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5275,
+    "step": 1055
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011175618274137378,
+    "learning_rate": 4.7499999999999995e-07,
+    "num_tokens": 716156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.2504630982875824e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.528,
+    "step": 1056
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014327390817925334,
+    "learning_rate": 4.7449999999999997e-07,
+    "num_tokens": 717052.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.353878855705261e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5285,
+    "step": 1057
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010367042850703,
+    "learning_rate": 4.7399999999999993e-07,
+    "num_tokens": 717948.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.3087249398231506e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.529,
+    "step": 1058
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014642463065683842,
+    "learning_rate": 4.7349999999999995e-07,
+    "num_tokens": 718314.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.121126115322113e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5295,
+    "step": 1059
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001211618771776557,
+    "learning_rate": 4.7299999999999996e-07,
+    "num_tokens": 718680.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.409929245710373e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.53,
+    "step": 1060
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.43314775824546814,
+    "learning_rate": 4.725e-07,
+    "num_tokens": 719576.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.388283610343933e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5305,
+    "step": 1061
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021799022797495127,
+    "learning_rate": 4.7199999999999994e-07,
+    "num_tokens": 719942.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.931647658348083e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.531,
+    "step": 1062
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9506287574768066,
+    "learning_rate": 4.7149999999999995e-07,
+    "num_tokens": 720838.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 6.758980453014374e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5315,
+    "step": 1063
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009273124160245061,
+    "learning_rate": 4.7099999999999997e-07,
+    "num_tokens": 721204.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.505537122488022e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.532,
+    "step": 1064
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.854387640953064,
+    "learning_rate": 4.7049999999999993e-07,
+    "num_tokens": 722100.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 5.616340786218643e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5325,
+    "step": 1065
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008773694280534983,
+    "learning_rate": 4.6999999999999995e-07,
+    "num_tokens": 722466.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8112903237342834e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.533,
+    "step": 1066
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003864539787173271,
+    "learning_rate": 4.6949999999999996e-07,
+    "num_tokens": 722832.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.4163858294487e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5335,
+    "step": 1067
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008390177972614765,
+    "learning_rate": 4.689999999999999e-07,
+    "num_tokens": 723198.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.3550895750522614e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.534,
+    "step": 1068
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5819850564002991,
+    "learning_rate": 4.685e-07,
+    "num_tokens": 724094.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8215000033378601,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8215000033378601,
+    "reward_std": 0.030405579134821892,
+    "kl": 4.4189393520355225e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5345,
+    "step": 1069
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7151784896850586,
+    "learning_rate": 4.68e-07,
+    "num_tokens": 724990.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 4.878733307123184e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.535,
+    "step": 1070
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7200919985771179,
+    "learning_rate": 4.675e-07,
+    "num_tokens": 725886.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.03111271932721138,
+    "reward": 0.828000009059906,
+    "reward_std": 0.03111271932721138,
+    "kl": 2.308003604412079e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5355,
+    "step": 1071
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007754597463645041,
+    "learning_rate": 4.67e-07,
+    "num_tokens": 726782.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.343393862247467e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.536,
+    "step": 1072
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.467349886894226,
+    "learning_rate": 4.665e-07,
+    "num_tokens": 727678.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 5.130656063556671e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5365,
+    "step": 1073
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014985098969191313,
+    "learning_rate": 4.66e-07,
+    "num_tokens": 728574.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8230000138282776,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8230000138282776,
+    "reward_std": 0.0,
+    "kl": 6.37909397482872e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.537,
+    "step": 1074
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006575265433639288,
+    "learning_rate": 4.655e-07,
+    "num_tokens": 728940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5262124836444855e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5375,
+    "step": 1075
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013476404128596187,
+    "learning_rate": 4.65e-07,
+    "num_tokens": 729836.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8360000252723694,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8360000252723694,
+    "reward_std": 0.0,
+    "kl": 6.878655403852463e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.538,
+    "step": 1076
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8713648915290833,
+    "learning_rate": 4.645e-07,
+    "num_tokens": 730732.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8285000324249268,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8285000324249268,
+    "reward_std": 0.030405621975660324,
+    "kl": 5.4436735808849335e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5385,
+    "step": 1077
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.896131694316864,
+    "learning_rate": 4.64e-07,
+    "num_tokens": 731628.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8365000486373901,
+    "rewards/environment_reward_verifier/std": 0.01909189112484455,
+    "reward": 0.8365000486373901,
+    "reward_std": 0.01909189112484455,
+    "kl": 7.974077016115189e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.539,
+    "step": 1078
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010619338136166334,
+    "learning_rate": 4.635e-07,
+    "num_tokens": 731994.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.778841346502304e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5395,
+    "step": 1079
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0038044482935220003,
+    "learning_rate": 4.63e-07,
+    "num_tokens": 732890.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 6.113387644290924e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.54,
+    "step": 1080
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006946232169866562,
+    "learning_rate": 4.625e-07,
+    "num_tokens": 733256.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9797665774822235e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5405,
+    "step": 1081
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010349710937589407,
+    "learning_rate": 4.62e-07,
+    "num_tokens": 733622.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.0976330637931824e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.541,
+    "step": 1082
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.8080283999443054,
+    "learning_rate": 4.615e-07,
+    "num_tokens": 734518.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 3.455299884080887e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5415,
+    "step": 1083
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6965125799179077,
+    "learning_rate": 4.61e-07,
+    "num_tokens": 735414.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 1.866370439529419e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.542,
+    "step": 1084
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6720305681228638,
+    "learning_rate": 4.605e-07,
+    "num_tokens": 736310.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6024999618530273,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6024999618530273,
+    "reward_std": 0.32031938433647156,
+    "kl": 4.154164344072342e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5425,
+    "step": 1085
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013083838857710361,
+    "learning_rate": 4.6e-07,
+    "num_tokens": 736676.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.0749629735946655e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.543,
+    "step": 1086
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.009301274083554745,
+    "learning_rate": 4.595e-07,
+    "num_tokens": 737042.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 8.457805961370468e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5435,
+    "step": 1087
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004053961019963026,
+    "learning_rate": 4.59e-07,
+    "num_tokens": 737408.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.5139579772949219e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.544,
+    "step": 1088
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011373644229024649,
+    "learning_rate": 4.585e-07,
+    "num_tokens": 737774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.684296876192093e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5445,
+    "step": 1089
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016718122642487288,
+    "learning_rate": 4.58e-07,
+    "num_tokens": 738140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.372838884592056e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.545,
+    "step": 1090
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015452688094228506,
+    "learning_rate": 4.575e-07,
+    "num_tokens": 738506.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 7.757917046546936e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5455,
+    "step": 1091
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012514872942119837,
+    "learning_rate": 4.57e-07,
+    "num_tokens": 738872.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.210827708244324e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.546,
+    "step": 1092
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005028535611927509,
+    "learning_rate": 4.565e-07,
+    "num_tokens": 739768.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 8.534826338291168e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5465,
+    "step": 1093
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8036929368972778,
+    "learning_rate": 4.56e-07,
+    "num_tokens": 740664.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6130000352859497,
+    "rewards/environment_reward_verifier/std": 0.33516865968704224,
+    "reward": 0.6130000352859497,
+    "reward_std": 0.33516862988471985,
+    "kl": 2.9150396585464478e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.547,
+    "step": 1094
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015902062878012657,
+    "learning_rate": 4.5549999999999997e-07,
+    "num_tokens": 741030.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.9276819229125977e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5475,
+    "step": 1095
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006445720326155424,
+    "learning_rate": 4.55e-07,
+    "num_tokens": 741926.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 0.00020186323672533035,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.548,
+    "step": 1096
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0024542820174247026,
+    "learning_rate": 4.545e-07,
+    "num_tokens": 742292.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 7.358752191066742e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5485,
+    "step": 1097
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7798157930374146,
+    "learning_rate": 4.54e-07,
+    "num_tokens": 743188.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.195274621248245e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.549,
+    "step": 1098
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002626468427479267,
+    "learning_rate": 4.535e-07,
+    "num_tokens": 743554.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.415508687496185e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5495,
+    "step": 1099
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010975905461236835,
+    "learning_rate": 4.53e-07,
+    "num_tokens": 744450.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 4.399195313453674e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.55,
+    "step": 1100
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014132909709587693,
+    "learning_rate": 4.525e-07,
+    "num_tokens": 744816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.489106893539429e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5505,
+    "step": 1101
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008872256148606539,
+    "learning_rate": 4.5199999999999997e-07,
+    "num_tokens": 745182.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7196481823921204e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.551,
+    "step": 1102
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009551795083098114,
+    "learning_rate": 4.515e-07,
+    "num_tokens": 745548.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.835450530052185e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5515,
+    "step": 1103
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009749606251716614,
+    "learning_rate": 4.51e-07,
+    "num_tokens": 745914.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.7489069402217865e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.552,
+    "step": 1104
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.701126217842102,
+    "learning_rate": 4.505e-07,
+    "num_tokens": 746810.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 3.5354867577552795e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5525,
+    "step": 1105
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016017908928915858,
+    "learning_rate": 4.5e-07,
+    "num_tokens": 747176.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.077982157468796e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.553,
+    "step": 1106
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.02981463633477688,
+    "learning_rate": 4.495e-07,
+    "num_tokens": 748072.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 0.0003043217584490776,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5535,
+    "step": 1107
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7885046005249023,
+    "learning_rate": 4.49e-07,
+    "num_tokens": 748968.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 4.943087697029114e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.554,
+    "step": 1108
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013270628405734897,
+    "learning_rate": 4.4849999999999997e-07,
+    "num_tokens": 749864.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 3.764824941754341e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5545,
+    "step": 1109
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002615105826407671,
+    "learning_rate": 4.48e-07,
+    "num_tokens": 750760.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 5.5215321481227875e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.555,
+    "step": 1110
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004951399751007557,
+    "learning_rate": 4.475e-07,
+    "num_tokens": 751656.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8349999785423279,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8349999785423279,
+    "reward_std": 0.0,
+    "kl": 8.068140596151352e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5555,
+    "step": 1111
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012534718262031674,
+    "learning_rate": 4.4699999999999997e-07,
+    "num_tokens": 752552.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.725903272628784e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.556,
+    "step": 1112
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.019243597984314,
+    "learning_rate": 4.465e-07,
+    "num_tokens": 753448.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 2.8742477297782898e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5565,
+    "step": 1113
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007149396697059274,
+    "learning_rate": 4.46e-07,
+    "num_tokens": 754344.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 3.425125032663345e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.557,
+    "step": 1114
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7942933440208435,
+    "learning_rate": 4.455e-07,
+    "num_tokens": 755240.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.513360232114792e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5575,
+    "step": 1115
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008115972159430385,
+    "learning_rate": 4.45e-07,
+    "num_tokens": 755606.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9197894036769867e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.558,
+    "step": 1116
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004850304394494742,
+    "learning_rate": 4.445e-07,
+    "num_tokens": 756502.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 2.2466294467449188e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5585,
+    "step": 1117
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0030674112495034933,
+    "learning_rate": 4.44e-07,
+    "num_tokens": 757398.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 7.501151412725449e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.559,
+    "step": 1118
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 7.088427543640137,
+    "learning_rate": 4.4349999999999997e-07,
+    "num_tokens": 758294.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.0011300211772322655,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5595,
+    "step": 1119
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4334491193294525,
+    "learning_rate": 4.43e-07,
+    "num_tokens": 759190.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 7.447786629199982e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.56,
+    "step": 1120
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007208894239738584,
+    "learning_rate": 4.425e-07,
+    "num_tokens": 760086.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8799999952316284,
+    "reward_std": 0.0,
+    "kl": 3.8051046431064606e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5605,
+    "step": 1121
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007795984856784344,
+    "learning_rate": 4.4199999999999996e-07,
+    "num_tokens": 760982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.468656748533249e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.561,
+    "step": 1122
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012512864777818322,
+    "learning_rate": 4.415e-07,
+    "num_tokens": 761878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 4.391837865114212e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5615,
+    "step": 1123
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009035151451826096,
+    "learning_rate": 4.41e-07,
+    "num_tokens": 762244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.166031092405319e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.562,
+    "step": 1124
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005260740406811237,
+    "learning_rate": 4.405e-07,
+    "num_tokens": 762610.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.784312427043915e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5625,
+    "step": 1125
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005609462503343821,
+    "learning_rate": 4.3999999999999997e-07,
+    "num_tokens": 762976.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00010124035179615021,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.563,
+    "step": 1126
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2771704196929932,
+    "learning_rate": 4.395e-07,
+    "num_tokens": 763872.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8355000019073486,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8355000019073486,
+    "reward_std": 0.030405579134821892,
+    "kl": 4.788767546415329e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5635,
+    "step": 1127
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021501986775547266,
+    "learning_rate": 4.39e-07,
+    "num_tokens": 764768.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.868744432926178e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.564,
+    "step": 1128
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.02380327321588993,
+    "learning_rate": 4.3849999999999996e-07,
+    "num_tokens": 765664.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 0.00020685698837041855,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5645,
+    "step": 1129
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008271721890196204,
+    "learning_rate": 4.38e-07,
+    "num_tokens": 766560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.460142761468887e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.565,
+    "step": 1130
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002502850955352187,
+    "learning_rate": 4.375e-07,
+    "num_tokens": 767456.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 8.812826126813889e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5655,
+    "step": 1131
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8675118684768677,
+    "learning_rate": 4.3699999999999996e-07,
+    "num_tokens": 768352.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 2.4055130779743195e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.566,
+    "step": 1132
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005724570946767926,
+    "learning_rate": 4.3649999999999997e-07,
+    "num_tokens": 768718.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.5970861315727234e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5665,
+    "step": 1133
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9044247269630432,
+    "learning_rate": 4.36e-07,
+    "num_tokens": 769614.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 4.267459735274315e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.567,
+    "step": 1134
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008706374792382121,
+    "learning_rate": 4.355e-07,
+    "num_tokens": 769980.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.38628888130188e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5675,
+    "step": 1135
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008669144008308649,
+    "learning_rate": 4.3499999999999996e-07,
+    "num_tokens": 770346.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9822811484336853e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.568,
+    "step": 1136
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008733807480894029,
+    "learning_rate": 4.345e-07,
+    "num_tokens": 771242.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 3.1771138310432434e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5685,
+    "step": 1137
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6992013454437256,
+    "learning_rate": 4.34e-07,
+    "num_tokens": 772138.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.146566450595856e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.569,
+    "step": 1138
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.721673309803009,
+    "learning_rate": 4.3349999999999996e-07,
+    "num_tokens": 773034.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.3486634492874146e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5695,
+    "step": 1139
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015109943924471736,
+    "learning_rate": 4.3299999999999997e-07,
+    "num_tokens": 773400.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.1791779696941376e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.57,
+    "step": 1140
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006302982219494879,
+    "learning_rate": 4.325e-07,
+    "num_tokens": 773766.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.970709025859833e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5705,
+    "step": 1141
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8986210823059082,
+    "learning_rate": 4.3199999999999995e-07,
+    "num_tokens": 774662.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 2.2946856915950775e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.571,
+    "step": 1142
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9135581851005554,
+    "learning_rate": 4.3149999999999997e-07,
+    "num_tokens": 775558.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8339999914169312,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8339999914169312,
+    "reward_std": 0.0014141954015940428,
+    "kl": 4.8568472266197205e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5715,
+    "step": 1143
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007872915011830628,
+    "learning_rate": 4.31e-07,
+    "num_tokens": 776454.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.8450042009353638e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.572,
+    "step": 1144
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014165544416755438,
+    "learning_rate": 4.305e-07,
+    "num_tokens": 776820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.639888018369675e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5725,
+    "step": 1145
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1294194459915161,
+    "learning_rate": 4.2999999999999996e-07,
+    "num_tokens": 777716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5985000133514404,
+    "rewards/environment_reward_verifier/std": 0.30900564789772034,
+    "reward": 0.5985000133514404,
+    "reward_std": 0.30900564789772034,
+    "kl": 3.513321280479431e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.573,
+    "step": 1146
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.3191306591033936,
+    "learning_rate": 4.295e-07,
+    "num_tokens": 778612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 6.908457726240158e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5735,
+    "step": 1147
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009586151572875679,
+    "learning_rate": 4.29e-07,
+    "num_tokens": 778978.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.177447408437729e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.574,
+    "step": 1148
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005024131387472153,
+    "learning_rate": 4.2849999999999995e-07,
+    "num_tokens": 779344.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.4783814549446106e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5745,
+    "step": 1149
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006900393636897206,
+    "learning_rate": 4.2799999999999997e-07,
+    "num_tokens": 779710.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.0194798707962036e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.575,
+    "step": 1150
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008045569411478937,
+    "learning_rate": 4.275e-07,
+    "num_tokens": 780076.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.0642375349998474e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5755,
+    "step": 1151
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9339599609375,
+    "learning_rate": 4.2699999999999995e-07,
+    "num_tokens": 780972.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 4.819221794605255e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.576,
+    "step": 1152
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0030637807212769985,
+    "learning_rate": 4.2649999999999996e-07,
+    "num_tokens": 781338.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.25936484336853e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5765,
+    "step": 1153
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007876747404225171,
+    "learning_rate": 4.26e-07,
+    "num_tokens": 781704.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2448599338531494e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.577,
+    "step": 1154
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 4.5117621421813965,
+    "learning_rate": 4.255e-07,
+    "num_tokens": 782600.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.00021765939891338348,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5775,
+    "step": 1155
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7867717146873474,
+    "learning_rate": 4.2499999999999995e-07,
+    "num_tokens": 783496.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 4.140380769968033e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.578,
+    "step": 1156
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.147055983543396,
+    "learning_rate": 4.2449999999999997e-07,
+    "num_tokens": 784392.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 5.766935646533966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5785,
+    "step": 1157
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009962597396224737,
+    "learning_rate": 4.24e-07,
+    "num_tokens": 784758.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.4585120677948e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.579,
+    "step": 1158
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6066794395446777,
+    "learning_rate": 4.2349999999999995e-07,
+    "num_tokens": 785654.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.099946141242981e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5795,
+    "step": 1159
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011076327646151185,
+    "learning_rate": 4.2299999999999996e-07,
+    "num_tokens": 786550.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 3.2811425626277924e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.58,
+    "step": 1160
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014531526248902082,
+    "learning_rate": 4.225e-07,
+    "num_tokens": 786916.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.2596137821674347e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5805,
+    "step": 1161
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9099974036216736,
+    "learning_rate": 4.2199999999999994e-07,
+    "num_tokens": 787812.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 4.342012107372284e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.581,
+    "step": 1162
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007894930895417929,
+    "learning_rate": 4.2149999999999996e-07,
+    "num_tokens": 788178.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.397651016712189e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5815,
+    "step": 1163
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006528134108521044,
+    "learning_rate": 4.2099999999999997e-07,
+    "num_tokens": 788544.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8007663786411285e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.582,
+    "step": 1164
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013370973756536841,
+    "learning_rate": 4.205e-07,
+    "num_tokens": 789440.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 4.331488162279129e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5825,
+    "step": 1165
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.008622455410659313,
+    "learning_rate": 4.1999999999999995e-07,
+    "num_tokens": 789806.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 9.85804945230484e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.583,
+    "step": 1166
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003398398694116622,
+    "learning_rate": 4.1949999999999996e-07,
+    "num_tokens": 790702.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 1.4378689229488373e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5835,
+    "step": 1167
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0026922523975372314,
+    "learning_rate": 4.19e-07,
+    "num_tokens": 791598.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 5.420856177806854e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.584,
+    "step": 1168
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011085510486736894,
+    "learning_rate": 4.1849999999999994e-07,
+    "num_tokens": 791964.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.356672823429108e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5845,
+    "step": 1169
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014948807656764984,
+    "learning_rate": 4.1799999999999996e-07,
+    "num_tokens": 792860.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 3.747083246707916e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.585,
+    "step": 1170
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0024414442013949156,
+    "learning_rate": 4.1749999999999997e-07,
+    "num_tokens": 793226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.383230745792389e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5855,
+    "step": 1171
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008324653026647866,
+    "learning_rate": 4.17e-07,
+    "num_tokens": 793592.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.4080276489257812e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.586,
+    "step": 1172
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004513743333518505,
+    "learning_rate": 4.1649999999999995e-07,
+    "num_tokens": 793958.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.0094368159770966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5865,
+    "step": 1173
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1424351930618286,
+    "learning_rate": 4.1599999999999997e-07,
+    "num_tokens": 794854.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.045254841446876526,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.045254841446876526,
+    "kl": 4.7483015805482864e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.587,
+    "step": 1174
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007836687145754695,
+    "learning_rate": 4.155e-07,
+    "num_tokens": 795220.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.364775329828262e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5875,
+    "step": 1175
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010889176046475768,
+    "learning_rate": 4.1499999999999994e-07,
+    "num_tokens": 796116.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 7.194280624389648e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.588,
+    "step": 1176
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007088605780154467,
+    "learning_rate": 4.1449999999999996e-07,
+    "num_tokens": 796482.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.4199096262454987e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5885,
+    "step": 1177
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.070939540863037,
+    "learning_rate": 4.14e-07,
+    "num_tokens": 797378.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 0.0002916678786277771,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.589,
+    "step": 1178
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6214652061462402,
+    "learning_rate": 4.1349999999999994e-07,
+    "num_tokens": 798274.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 2.4322420358657837e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5895,
+    "step": 1179
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009458345011807978,
+    "learning_rate": 4.1299999999999995e-07,
+    "num_tokens": 799170.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.9888545870780945e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.59,
+    "step": 1180
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0023420630022883415,
+    "learning_rate": 4.1249999999999997e-07,
+    "num_tokens": 800066.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8169999718666077,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8169999718666077,
+    "reward_std": 0.0,
+    "kl": 5.9927813708782196e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5905,
+    "step": 1181
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000965822022408247,
+    "learning_rate": 4.12e-07,
+    "num_tokens": 800432.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.7750229239463806e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.591,
+    "step": 1182
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.6063085794448853,
+    "learning_rate": 4.1149999999999995e-07,
+    "num_tokens": 801328.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5900000333786011,
+    "rewards/environment_reward_verifier/std": 0.29698485136032104,
+    "reward": 0.5900000333786011,
+    "reward_std": 0.29698485136032104,
+    "kl": 0.00027918070554733276,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5915,
+    "step": 1183
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005139731802046299,
+    "learning_rate": 4.1099999999999996e-07,
+    "num_tokens": 801694.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3162923753261566e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.592,
+    "step": 1184
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5656786561012268,
+    "learning_rate": 4.105e-07,
+    "num_tokens": 802590.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.2364390790462494e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5925,
+    "step": 1185
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014976236270740628,
+    "learning_rate": 4.0999999999999994e-07,
+    "num_tokens": 803486.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 6.177928298711777e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.593,
+    "step": 1186
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004364319611340761,
+    "learning_rate": 4.0949999999999995e-07,
+    "num_tokens": 804382.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.5425106287002563e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5935,
+    "step": 1187
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009826120221987367,
+    "learning_rate": 4.0899999999999997e-07,
+    "num_tokens": 805278.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.7304667532444e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.594,
+    "step": 1188
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.64700847864151,
+    "learning_rate": 4.0849999999999993e-07,
+    "num_tokens": 806174.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 5.3250230848789215e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5945,
+    "step": 1189
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0022661720868200064,
+    "learning_rate": 4.0799999999999995e-07,
+    "num_tokens": 806540.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.443595677614212e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.595,
+    "step": 1190
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000834315549582243,
+    "learning_rate": 4.0749999999999996e-07,
+    "num_tokens": 806906.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.1482428312301636e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5955,
+    "step": 1191
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6438500285148621,
+    "learning_rate": 4.07e-07,
+    "num_tokens": 807802.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.063065767288208e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.596,
+    "step": 1192
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1600512266159058,
+    "learning_rate": 4.0649999999999994e-07,
+    "num_tokens": 808698.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 7.457006722688675e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5965,
+    "step": 1193
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5434377789497375,
+    "learning_rate": 4.06e-07,
+    "num_tokens": 809594.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 0.00014703162014484406,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.597,
+    "step": 1194
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.4017819166183472,
+    "learning_rate": 4.055e-07,
+    "num_tokens": 810490.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.045254841446876526,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.045254841446876526,
+    "kl": 8.405186235904694e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5975,
+    "step": 1195
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012142626801505685,
+    "learning_rate": 4.05e-07,
+    "num_tokens": 811386.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.384985029697418e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.598,
+    "step": 1196
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.018900752067566,
+    "learning_rate": 4.045e-07,
+    "num_tokens": 812282.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 4.876777529716492e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5985,
+    "step": 1197
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005210700444877148,
+    "learning_rate": 4.04e-07,
+    "num_tokens": 813178.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 3.0909664928913116e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.599,
+    "step": 1198
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011610703077167273,
+    "learning_rate": 4.0350000000000003e-07,
+    "num_tokens": 814074.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 5.2697956562042236e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.5995,
+    "step": 1199
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020010985899716616,
+    "learning_rate": 4.03e-07,
+    "num_tokens": 814440.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.6801211535930634e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6,
+    "step": 1200
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.154164433479309,
+    "learning_rate": 4.025e-07,
+    "num_tokens": 815336.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8194999694824219,
+    "rewards/environment_reward_verifier/std": 0.006363963708281517,
+    "reward": 0.8194999694824219,
+    "reward_std": 0.00636396324262023,
+    "kl": 5.737924948334694e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6005,
+    "step": 1201
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8344117999076843,
+    "learning_rate": 4.02e-07,
+    "num_tokens": 816232.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5659999847412109,
+    "rewards/environment_reward_verifier/std": 0.26304370164871216,
+    "reward": 0.5659999847412109,
+    "reward_std": 0.26304370164871216,
+    "kl": 4.787277430295944e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.601,
+    "step": 1202
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003480904968455434,
+    "learning_rate": 4.015e-07,
+    "num_tokens": 816598.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.830529749393463e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6015,
+    "step": 1203
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5837674736976624,
+    "learning_rate": 4.01e-07,
+    "num_tokens": 817494.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.146659582853317e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.602,
+    "step": 1204
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009633260779082775,
+    "learning_rate": 4.005e-07,
+    "num_tokens": 817860.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.5591813027858734e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6025,
+    "step": 1205
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009856430115178227,
+    "learning_rate": 4e-07,
+    "num_tokens": 818226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.5589950382709503e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.603,
+    "step": 1206
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9632642865180969,
+    "learning_rate": 3.995e-07,
+    "num_tokens": 819122.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5895000100135803,
+    "rewards/environment_reward_verifier/std": 0.2976919412612915,
+    "reward": 0.5895000100135803,
+    "reward_std": 0.2976919412612915,
+    "kl": 7.927417755126953e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6035,
+    "step": 1207
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7225797772407532,
+    "learning_rate": 3.99e-07,
+    "num_tokens": 820018.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8004999756813049,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.8004999756813049,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.618467599153519e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.604,
+    "step": 1208
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005820510559715331,
+    "learning_rate": 3.9850000000000003e-07,
+    "num_tokens": 820384.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.506747841835022e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6045,
+    "step": 1209
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.11246080696582794,
+    "learning_rate": 3.98e-07,
+    "num_tokens": 821280.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 0.0006216149777173996,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.605,
+    "step": 1210
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008536215755157173,
+    "learning_rate": 3.975e-07,
+    "num_tokens": 822176.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.647804260253906e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6055,
+    "step": 1211
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8368681073188782,
+    "learning_rate": 3.97e-07,
+    "num_tokens": 823072.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.01555635966360569,
+    "kl": 6.206240504980087e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.606,
+    "step": 1212
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013144423719495535,
+    "learning_rate": 3.965e-07,
+    "num_tokens": 823438.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.236958920955658e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6065,
+    "step": 1213
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006823380826972425,
+    "learning_rate": 3.96e-07,
+    "num_tokens": 823804.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.3760832846164703e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.607,
+    "step": 1214
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1030247211456299,
+    "learning_rate": 3.955e-07,
+    "num_tokens": 824700.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 6.19012862443924e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6075,
+    "step": 1215
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.477575659751892,
+    "learning_rate": 3.95e-07,
+    "num_tokens": 825596.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8264999985694885,
+    "rewards/environment_reward_verifier/std": 0.004949725698679686,
+    "reward": 0.8264999985694885,
+    "reward_std": 0.004949725698679686,
+    "kl": 4.018470644950867e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.608,
+    "step": 1216
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.0342001914978027,
+    "learning_rate": 3.945e-07,
+    "num_tokens": 826492.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.846500039100647,
+    "rewards/environment_reward_verifier/std": 0.014849219471216202,
+    "reward": 0.846500039100647,
+    "reward_std": 0.014849220402538776,
+    "kl": 0.0002557104453444481,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6085,
+    "step": 1217
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.7365775108337402,
+    "learning_rate": 3.94e-07,
+    "num_tokens": 827388.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 0.0005983030423521996,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.609,
+    "step": 1218
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015003138687461615,
+    "learning_rate": 3.935e-07,
+    "num_tokens": 828284.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 3.05837020277977e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6095,
+    "step": 1219
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006942595937289298,
+    "learning_rate": 3.93e-07,
+    "num_tokens": 828650.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.819392830133438e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.61,
+    "step": 1220
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2102298736572266,
+    "learning_rate": 3.925e-07,
+    "num_tokens": 829546.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 8.058547973632812e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6105,
+    "step": 1221
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002410503104329109,
+    "learning_rate": 3.92e-07,
+    "num_tokens": 829912.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7735717594623566e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.611,
+    "step": 1222
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5362751483917236,
+    "learning_rate": 3.915e-07,
+    "num_tokens": 830808.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5895000100135803,
+    "rewards/environment_reward_verifier/std": 0.2976919412612915,
+    "reward": 0.5895000100135803,
+    "reward_std": 0.2976919412612915,
+    "kl": 4.956033080816269e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6115,
+    "step": 1223
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.942923903465271,
+    "learning_rate": 3.91e-07,
+    "num_tokens": 831704.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 8.915457874536514e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.612,
+    "step": 1224
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002524598268792033,
+    "learning_rate": 3.905e-07,
+    "num_tokens": 832070.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.547236651182175e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6125,
+    "step": 1225
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7344366908073425,
+    "learning_rate": 3.8999999999999997e-07,
+    "num_tokens": 832966.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 2.895202487707138e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.613,
+    "step": 1226
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006395566160790622,
+    "learning_rate": 3.895e-07,
+    "num_tokens": 833332.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4780631065368652e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6135,
+    "step": 1227
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005058986134827137,
+    "learning_rate": 3.89e-07,
+    "num_tokens": 834228.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 6.9446861743927e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.614,
+    "step": 1228
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012920841109007597,
+    "learning_rate": 3.885e-07,
+    "num_tokens": 834594.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.587322473526001e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6145,
+    "step": 1229
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007255738019011915,
+    "learning_rate": 3.88e-07,
+    "num_tokens": 834960.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.073643893003464e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.615,
+    "step": 1230
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010118153877556324,
+    "learning_rate": 3.875e-07,
+    "num_tokens": 835856.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 5.720555782318115e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6155,
+    "step": 1231
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9696030616760254,
+    "learning_rate": 3.87e-07,
+    "num_tokens": 836752.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 5.519948899745941e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.616,
+    "step": 1232
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008281389600597322,
+    "learning_rate": 3.8649999999999997e-07,
+    "num_tokens": 837648.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.955978900194168e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6165,
+    "step": 1233
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000896997342351824,
+    "learning_rate": 3.86e-07,
+    "num_tokens": 838014.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.720579504966736e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.617,
+    "step": 1234
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8454764485359192,
+    "learning_rate": 3.855e-07,
+    "num_tokens": 838910.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6130000352859497,
+    "rewards/environment_reward_verifier/std": 0.33516865968704224,
+    "reward": 0.6130000352859497,
+    "reward_std": 0.33516862988471985,
+    "kl": 2.8034672141075134e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6175,
+    "step": 1235
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.5553829669952393,
+    "learning_rate": 3.8499999999999997e-07,
+    "num_tokens": 839806.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.0008981227874755859,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.618,
+    "step": 1236
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028249912429600954,
+    "learning_rate": 3.845e-07,
+    "num_tokens": 840172.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.781115472316742e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6185,
+    "step": 1237
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8872079849243164,
+    "learning_rate": 3.84e-07,
+    "num_tokens": 841068.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6104999780654907,
+    "rewards/environment_reward_verifier/std": 0.32173359394073486,
+    "reward": 0.6104999780654907,
+    "reward_std": 0.32173359394073486,
+    "kl": 3.669038414955139e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.619,
+    "step": 1238
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.1121773719787598,
+    "learning_rate": 3.835e-07,
+    "num_tokens": 841964.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7914999723434448,
+    "rewards/environment_reward_verifier/std": 0.012020829133689404,
+    "reward": 0.7914999723434448,
+    "reward_std": 0.012020829133689404,
+    "kl": 4.011392593383789e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6195,
+    "step": 1239
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8808300495147705,
+    "learning_rate": 3.83e-07,
+    "num_tokens": 842860.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 5.278363823890686e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.62,
+    "step": 1240
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008536277455277741,
+    "learning_rate": 3.825e-07,
+    "num_tokens": 843226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.142786979675293e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6205,
+    "step": 1241
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00196442031301558,
+    "learning_rate": 3.82e-07,
+    "num_tokens": 844122.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 6.778724491596222e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.621,
+    "step": 1242
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1811593770980835,
+    "learning_rate": 3.8149999999999997e-07,
+    "num_tokens": 845018.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 9.287428110837936e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6215,
+    "step": 1243
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.1052486896514893,
+    "learning_rate": 3.81e-07,
+    "num_tokens": 845914.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00012909993529319763,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.622,
+    "step": 1244
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007280511781573296,
+    "learning_rate": 3.805e-07,
+    "num_tokens": 846810.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 4.291161894798279e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6225,
+    "step": 1245
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009892369853332639,
+    "learning_rate": 3.7999999999999996e-07,
+    "num_tokens": 847706.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 4.4899992644786835e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.623,
+    "step": 1246
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2615931034088135,
+    "learning_rate": 3.795e-07,
+    "num_tokens": 848602.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 0.00013742130249738693,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6235,
+    "step": 1247
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9772652983665466,
+    "learning_rate": 3.79e-07,
+    "num_tokens": 849498.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 6.359443068504333e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.624,
+    "step": 1248
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010019529145210981,
+    "learning_rate": 3.785e-07,
+    "num_tokens": 850394.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 3.528129309415817e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6245,
+    "step": 1249
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001229120884090662,
+    "learning_rate": 3.7799999999999997e-07,
+    "num_tokens": 850760.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.002785474061966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.625,
+    "step": 1250
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002709547057747841,
+    "learning_rate": 3.775e-07,
+    "num_tokens": 851126.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.825034946203232e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6255,
+    "step": 1251
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007558225770480931,
+    "learning_rate": 3.77e-07,
+    "num_tokens": 852022.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.405194729566574e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.626,
+    "step": 1252
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007477627950720489,
+    "learning_rate": 3.7649999999999996e-07,
+    "num_tokens": 852388.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9467977583408356e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6265,
+    "step": 1253
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.641973614692688,
+    "learning_rate": 3.76e-07,
+    "num_tokens": 853284.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 2.405419945716858e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.627,
+    "step": 1254
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008768303669057786,
+    "learning_rate": 3.755e-07,
+    "num_tokens": 854180.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.962963819503784e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6275,
+    "step": 1255
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001349854632280767,
+    "learning_rate": 3.75e-07,
+    "num_tokens": 855076.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 3.5919249057769775e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.628,
+    "step": 1256
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.967917799949646,
+    "learning_rate": 3.7449999999999997e-07,
+    "num_tokens": 855972.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8314999938011169,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8314999938011169,
+    "reward_std": 0.016263457015156746,
+    "kl": 5.0412025302648544e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6285,
+    "step": 1257
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001075277803465724,
+    "learning_rate": 3.74e-07,
+    "num_tokens": 856338.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.575347363948822e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.629,
+    "step": 1258
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008712686831131577,
+    "learning_rate": 3.735e-07,
+    "num_tokens": 857234.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.816800355911255e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6295,
+    "step": 1259
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5931232571601868,
+    "learning_rate": 3.7299999999999997e-07,
+    "num_tokens": 858130.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 5.093403160572052e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.63,
+    "step": 1260
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002584398491308093,
+    "learning_rate": 3.725e-07,
+    "num_tokens": 859026.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 6.108544766902924e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6305,
+    "step": 1261
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6407532095909119,
+    "learning_rate": 3.72e-07,
+    "num_tokens": 859922.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.1507574021816254e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.631,
+    "step": 1262
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005580906290560961,
+    "learning_rate": 3.7149999999999996e-07,
+    "num_tokens": 860818.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.9365142583847046e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6315,
+    "step": 1263
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007866480154916644,
+    "learning_rate": 3.71e-07,
+    "num_tokens": 861714.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 2.9120594263076782e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.632,
+    "step": 1264
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00023025991686154157,
+    "learning_rate": 3.705e-07,
+    "num_tokens": 862080.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.134411811828613e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6325,
+    "step": 1265
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007495736936107278,
+    "learning_rate": 3.7e-07,
+    "num_tokens": 862446.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.528168261051178e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.633,
+    "step": 1266
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012470403453335166,
+    "learning_rate": 3.6949999999999997e-07,
+    "num_tokens": 862812.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.004035145044327e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6335,
+    "step": 1267
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00143651501275599,
+    "learning_rate": 3.69e-07,
+    "num_tokens": 863178.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.211735308170319e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.634,
+    "step": 1268
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.5546659231185913,
+    "learning_rate": 3.685e-07,
+    "num_tokens": 864074.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 2.325884997844696e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6345,
+    "step": 1269
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6545803546905518,
+    "learning_rate": 3.6799999999999996e-07,
+    "num_tokens": 864970.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5734999775886536,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5734999775886536,
+    "reward_std": 0.27082186937332153,
+    "kl": 3.8314610719680786e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.635,
+    "step": 1270
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000768592581152916,
+    "learning_rate": 3.675e-07,
+    "num_tokens": 865866.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 4.2659230530261993e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6355,
+    "step": 1271
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005816725082695484,
+    "learning_rate": 3.67e-07,
+    "num_tokens": 866232.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.577186286449432e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.636,
+    "step": 1272
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009579506004229188,
+    "learning_rate": 3.6649999999999995e-07,
+    "num_tokens": 867128.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 3.569386899471283e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6365,
+    "step": 1273
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000599819584749639,
+    "learning_rate": 3.6599999999999997e-07,
+    "num_tokens": 867494.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6275403797626495e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.637,
+    "step": 1274
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003153608413413167,
+    "learning_rate": 3.655e-07,
+    "num_tokens": 867860.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.91218301653862e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6375,
+    "step": 1275
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011011279420927167,
+    "learning_rate": 3.65e-07,
+    "num_tokens": 868226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.7239864468574524e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.638,
+    "step": 1276
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000460358482087031,
+    "learning_rate": 3.6449999999999996e-07,
+    "num_tokens": 869122.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 2.530403435230255e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6385,
+    "step": 1277
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006261324742808938,
+    "learning_rate": 3.64e-07,
+    "num_tokens": 869488.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.293381839990616e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.639,
+    "step": 1278
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00068364676553756,
+    "learning_rate": 3.635e-07,
+    "num_tokens": 869854.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2297725081443787e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6395,
+    "step": 1279
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014128347393125296,
+    "learning_rate": 3.6299999999999995e-07,
+    "num_tokens": 870220.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.2020190954208374e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.64,
+    "step": 1280
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9464602470397949,
+    "learning_rate": 3.6249999999999997e-07,
+    "num_tokens": 871116.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7875000238418579,
+    "rewards/environment_reward_verifier/std": 0.05020460858941078,
+    "reward": 0.7875000238418579,
+    "reward_std": 0.05020460858941078,
+    "kl": 3.541354089975357e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6405,
+    "step": 1281
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.06001497805118561,
+    "learning_rate": 3.62e-07,
+    "num_tokens": 872012.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 0.0008651353418827057,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.641,
+    "step": 1282
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007043189834803343,
+    "learning_rate": 3.6149999999999995e-07,
+    "num_tokens": 872378.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.782978117465973e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6415,
+    "step": 1283
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0026320756878703833,
+    "learning_rate": 3.6099999999999996e-07,
+    "num_tokens": 872744.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 8.329004049301147e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.642,
+    "step": 1284
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6783477067947388,
+    "learning_rate": 3.605e-07,
+    "num_tokens": 873640.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.6607420295476913e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6425,
+    "step": 1285
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010286318138241768,
+    "learning_rate": 3.6e-07,
+    "num_tokens": 874006.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.1649524569511414e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.643,
+    "step": 1286
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2441000938415527,
+    "learning_rate": 3.5949999999999996e-07,
+    "num_tokens": 874902.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 8.106417953968048e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6435,
+    "step": 1287
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005106752272695303,
+    "learning_rate": 3.5899999999999997e-07,
+    "num_tokens": 875798.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.00012571550905704498,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.644,
+    "step": 1288
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1743097305297852,
+    "learning_rate": 3.585e-07,
+    "num_tokens": 876694.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8264999985694885,
+    "rewards/environment_reward_verifier/std": 0.004949725698679686,
+    "reward": 0.8264999985694885,
+    "reward_std": 0.004949725698679686,
+    "kl": 6.488896906375885e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6445,
+    "step": 1289
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9160370826721191,
+    "learning_rate": 3.5799999999999995e-07,
+    "num_tokens": 877590.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.824999988079071,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.824999988079071,
+    "reward_std": 0.011313731782138348,
+    "kl": 6.76717609167099e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.645,
+    "step": 1290
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009755863575264812,
+    "learning_rate": 3.5749999999999997e-07,
+    "num_tokens": 877956.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.708316504955292e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6455,
+    "step": 1291
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0256574153900146,
+    "learning_rate": 3.57e-07,
+    "num_tokens": 878852.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7944999933242798,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7944999933242798,
+    "reward_std": 0.0502045676112175,
+    "kl": 6.704498082399368e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.646,
+    "step": 1292
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010145347332581878,
+    "learning_rate": 3.5649999999999994e-07,
+    "num_tokens": 879218.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.818011075258255e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6465,
+    "step": 1293
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009893701644614339,
+    "learning_rate": 3.5599999999999996e-07,
+    "num_tokens": 879584.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.8242898881435394e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.647,
+    "step": 1294
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009004553430713713,
+    "learning_rate": 3.555e-07,
+    "num_tokens": 880480.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 3.14861536026001e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6475,
+    "step": 1295
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008759471238590777,
+    "learning_rate": 3.55e-07,
+    "num_tokens": 880846.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.798492252826691e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.648,
+    "step": 1296
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013422233751043677,
+    "learning_rate": 3.5449999999999995e-07,
+    "num_tokens": 881212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.2491981983184814e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6485,
+    "step": 1297
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004376707598567009,
+    "learning_rate": 3.5399999999999997e-07,
+    "num_tokens": 882108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 4.7217123210430145e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.649,
+    "step": 1298
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.0538861751556396,
+    "learning_rate": 3.535e-07,
+    "num_tokens": 883004.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.812999963760376,
+    "rewards/environment_reward_verifier/std": 0.009899493306875229,
+    "reward": 0.812999963760376,
+    "reward_std": 0.009899494238197803,
+    "kl": 6.355904042720795e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6495,
+    "step": 1299
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5427396893501282,
+    "learning_rate": 3.5299999999999994e-07,
+    "num_tokens": 883900.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.3927539587020874e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.65,
+    "step": 1300
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001437443308532238,
+    "learning_rate": 3.5249999999999996e-07,
+    "num_tokens": 884796.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 5.222763866186142e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6505,
+    "step": 1301
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9306321740150452,
+    "learning_rate": 3.52e-07,
+    "num_tokens": 885692.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7879999876022339,
+    "rewards/environment_reward_verifier/std": 0.05091170594096184,
+    "reward": 0.7879999876022339,
+    "reward_std": 0.05091170594096184,
+    "kl": 8.379947394132614e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.651,
+    "step": 1302
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002548660384491086,
+    "learning_rate": 3.5149999999999994e-07,
+    "num_tokens": 886058.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.484573870897293e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6515,
+    "step": 1303
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8278523683547974,
+    "learning_rate": 3.5099999999999995e-07,
+    "num_tokens": 886954.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 6.023421883583069e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.652,
+    "step": 1304
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6710245013237,
+    "learning_rate": 3.5049999999999997e-07,
+    "num_tokens": 887850.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.4685246646404266e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6525,
+    "step": 1305
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8050752282142639,
+    "learning_rate": 3.5e-07,
+    "num_tokens": 888746.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 5.374569445848465e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.653,
+    "step": 1306
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9615032076835632,
+    "learning_rate": 3.4949999999999995e-07,
+    "num_tokens": 889642.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 6.828084588050842e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6535,
+    "step": 1307
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010592974722385406,
+    "learning_rate": 3.4899999999999996e-07,
+    "num_tokens": 890008.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.003848880529404e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.654,
+    "step": 1308
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8069937825202942,
+    "learning_rate": 3.485e-07,
+    "num_tokens": 890904.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 7.432699203491211e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6545,
+    "step": 1309
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010740803554654121,
+    "learning_rate": 3.4799999999999994e-07,
+    "num_tokens": 891270.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.285760223865509e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.655,
+    "step": 1310
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000928595254663378,
+    "learning_rate": 3.4749999999999996e-07,
+    "num_tokens": 891636.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.1488947570323944e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6555,
+    "step": 1311
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6778450608253479,
+    "learning_rate": 3.4699999999999997e-07,
+    "num_tokens": 892532.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8004999756813049,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.8004999756813049,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.174692392349243e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.656,
+    "step": 1312
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012175820302218199,
+    "learning_rate": 3.4649999999999993e-07,
+    "num_tokens": 893428.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 4.419032484292984e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6565,
+    "step": 1313
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2002919912338257,
+    "learning_rate": 3.4599999999999995e-07,
+    "num_tokens": 894324.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00012012850493192673,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.657,
+    "step": 1314
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017943575512617826,
+    "learning_rate": 3.4549999999999996e-07,
+    "num_tokens": 894690.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.819050759077072e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6575,
+    "step": 1315
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8222445845603943,
+    "learning_rate": 3.45e-07,
+    "num_tokens": 895586.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.055079236626625e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.658,
+    "step": 1316
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006479246076196432,
+    "learning_rate": 3.4449999999999994e-07,
+    "num_tokens": 895952.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9908493161201477e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6585,
+    "step": 1317
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7560232877731323,
+    "learning_rate": 3.4399999999999996e-07,
+    "num_tokens": 896848.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 6.515160202980042e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.659,
+    "step": 1318
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.014223476871848106,
+    "learning_rate": 3.435e-07,
+    "num_tokens": 897744.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00023256801068782806,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6595,
+    "step": 1319
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.4846367835998535,
+    "learning_rate": 3.43e-07,
+    "num_tokens": 898640.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0004176180809736252,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.66,
+    "step": 1320
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008440379751846194,
+    "learning_rate": 3.425e-07,
+    "num_tokens": 899006.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8285197913646698e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6605,
+    "step": 1321
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6470924615859985,
+    "learning_rate": 3.42e-07,
+    "num_tokens": 899902.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8215000033378601,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8215000033378601,
+    "reward_std": 0.030405579134821892,
+    "kl": 8.140783756971359e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.661,
+    "step": 1322
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7923425436019897,
+    "learning_rate": 3.4150000000000003e-07,
+    "num_tokens": 900798.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8034999966621399,
+    "rewards/environment_reward_verifier/std": 0.004949725698679686,
+    "reward": 0.8034999966621399,
+    "reward_std": 0.004949725698679686,
+    "kl": 6.092153489589691e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6615,
+    "step": 1323
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007985649281181395,
+    "learning_rate": 3.41e-07,
+    "num_tokens": 901164.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.0151568353176117e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.662,
+    "step": 1324
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6748971343040466,
+    "learning_rate": 3.405e-07,
+    "num_tokens": 902060.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.894829958677292e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6625,
+    "step": 1325
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7054407000541687,
+    "learning_rate": 3.4000000000000003e-07,
+    "num_tokens": 902956.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.058742731809616e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.663,
+    "step": 1326
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00041221315041184425,
+    "learning_rate": 3.395e-07,
+    "num_tokens": 903852.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.8746592104434967e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6635,
+    "step": 1327
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.038646597415208817,
+    "learning_rate": 3.39e-07,
+    "num_tokens": 904748.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 0.00044205132871866226,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.664,
+    "step": 1328
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008110158960334957,
+    "learning_rate": 3.385e-07,
+    "num_tokens": 905114.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.74791294336319e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6645,
+    "step": 1329
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7750295400619507,
+    "learning_rate": 3.38e-07,
+    "num_tokens": 906010.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8289999961853027,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8289999961853027,
+    "reward_std": 0.0014141954015940428,
+    "kl": 4.74732369184494e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.665,
+    "step": 1330
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005337664624676108,
+    "learning_rate": 3.375e-07,
+    "num_tokens": 906906.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.6640092730522156e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6655,
+    "step": 1331
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010131035232916474,
+    "learning_rate": 3.37e-07,
+    "num_tokens": 907802.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 3.915652632713318e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.666,
+    "step": 1332
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7440443634986877,
+    "learning_rate": 3.3650000000000003e-07,
+    "num_tokens": 908698.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 2.2001564502716064e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6665,
+    "step": 1333
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008754681330174208,
+    "learning_rate": 3.36e-07,
+    "num_tokens": 909064.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.6763806343078613e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.667,
+    "step": 1334
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007677595713175833,
+    "learning_rate": 3.355e-07,
+    "num_tokens": 909430.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.990197390317917e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6675,
+    "step": 1335
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0044853463768959045,
+    "learning_rate": 3.35e-07,
+    "num_tokens": 910326.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.878000020980835,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.878000020980835,
+    "reward_std": 0.0,
+    "kl": 0.00011534057557582855,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.668,
+    "step": 1336
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005815306794829667,
+    "learning_rate": 3.345e-07,
+    "num_tokens": 910692.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.8213875591754913e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6685,
+    "step": 1337
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000703338417224586,
+    "learning_rate": 3.34e-07,
+    "num_tokens": 911058.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.180932253599167e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.669,
+    "step": 1338
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7522983551025391,
+    "learning_rate": 3.335e-07,
+    "num_tokens": 911954.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.4965574741363525e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6695,
+    "step": 1339
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0038247250486165285,
+    "learning_rate": 3.33e-07,
+    "num_tokens": 912850.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.000109134241938591,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.67,
+    "step": 1340
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8478634357452393,
+    "learning_rate": 3.325e-07,
+    "num_tokens": 913746.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 4.1466206312179565e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6705,
+    "step": 1341
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9138993620872498,
+    "learning_rate": 3.32e-07,
+    "num_tokens": 914642.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6004999876022339,
+    "rewards/environment_reward_verifier/std": 0.3090056777000427,
+    "reward": 0.6004999876022339,
+    "reward_std": 0.3090056777000427,
+    "kl": 8.696969598531723e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.671,
+    "step": 1342
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021632679272443056,
+    "learning_rate": 3.315e-07,
+    "num_tokens": 915008.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.276656985282898e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6715,
+    "step": 1343
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7756864428520203,
+    "learning_rate": 3.31e-07,
+    "num_tokens": 915904.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7914999723434448,
+    "rewards/environment_reward_verifier/std": 0.012020829133689404,
+    "reward": 0.7914999723434448,
+    "reward_std": 0.012020829133689404,
+    "kl": 3.759749233722687e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.672,
+    "step": 1344
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7610845565795898,
+    "learning_rate": 3.305e-07,
+    "num_tokens": 916800.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8270000219345093,
+    "rewards/environment_reward_verifier/std": 0.01131368987262249,
+    "reward": 0.8270000219345093,
+    "reward_std": 0.011313688941299915,
+    "kl": 2.3875385522842407e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6725,
+    "step": 1345
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004521695431321859,
+    "learning_rate": 3.3e-07,
+    "num_tokens": 917696.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 6.487127393484116e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.673,
+    "step": 1346
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1814557313919067,
+    "learning_rate": 3.295e-07,
+    "num_tokens": 918592.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.055154334753751755,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.055154334753751755,
+    "kl": 3.372412174940109e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6735,
+    "step": 1347
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7761304974555969,
+    "learning_rate": 3.29e-07,
+    "num_tokens": 919488.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 6.966851651668549e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.674,
+    "step": 1348
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001064626849256456,
+    "learning_rate": 3.285e-07,
+    "num_tokens": 919854.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.1544437408447266e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6745,
+    "step": 1349
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001295957830734551,
+    "learning_rate": 3.28e-07,
+    "num_tokens": 920220.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0192936062812805e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.675,
+    "step": 1350
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001216788194142282,
+    "learning_rate": 3.275e-07,
+    "num_tokens": 920586.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.43743371963501e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6755,
+    "step": 1351
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005596580449491739,
+    "learning_rate": 3.27e-07,
+    "num_tokens": 920952.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.292310819029808e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.676,
+    "step": 1352
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016285229939967394,
+    "learning_rate": 3.265e-07,
+    "num_tokens": 921848.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.9882026612758636e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6765,
+    "step": 1353
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7587524652481079,
+    "learning_rate": 3.26e-07,
+    "num_tokens": 922744.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 2.8314068913459778e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.677,
+    "step": 1354
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0019900077022612095,
+    "learning_rate": 3.255e-07,
+    "num_tokens": 923110.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.9114227294921875e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6775,
+    "step": 1355
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5896979570388794,
+    "learning_rate": 3.25e-07,
+    "num_tokens": 924006.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.6628375053405762e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.678,
+    "step": 1356
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011802142253145576,
+    "learning_rate": 3.245e-07,
+    "num_tokens": 924372.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.596449434757233e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6785,
+    "step": 1357
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010036288294941187,
+    "learning_rate": 3.24e-07,
+    "num_tokens": 924738.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.07282093167305e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.679,
+    "step": 1358
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028521367348730564,
+    "learning_rate": 3.235e-07,
+    "num_tokens": 925634.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.950219929218292e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6795,
+    "step": 1359
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.016494104638695717,
+    "learning_rate": 3.23e-07,
+    "num_tokens": 926530.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 0.00013456307351589203,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.68,
+    "step": 1360
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004497945308685303,
+    "learning_rate": 3.225e-07,
+    "num_tokens": 927426.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.94649463891983e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6805,
+    "step": 1361
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003344974829815328,
+    "learning_rate": 3.22e-07,
+    "num_tokens": 927792.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.6856938600540161e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.681,
+    "step": 1362
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010008744429796934,
+    "learning_rate": 3.215e-07,
+    "num_tokens": 928158.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.93684783577919e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6815,
+    "step": 1363
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001206480897963047,
+    "learning_rate": 3.21e-07,
+    "num_tokens": 928524.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.2152201533317566e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.682,
+    "step": 1364
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016773812239989638,
+    "learning_rate": 3.205e-07,
+    "num_tokens": 929420.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.3534284234046936e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6825,
+    "step": 1365
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8313549160957336,
+    "learning_rate": 3.2e-07,
+    "num_tokens": 930316.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 8.157175034284592e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.683,
+    "step": 1366
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001157211372628808,
+    "learning_rate": 3.1949999999999997e-07,
+    "num_tokens": 930682.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.2526982724666595e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6835,
+    "step": 1367
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008214963017962873,
+    "learning_rate": 3.19e-07,
+    "num_tokens": 931578.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8560000061988831,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8560000061988831,
+    "reward_std": 0.0,
+    "kl": 4.2312778532505035e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.684,
+    "step": 1368
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6024468541145325,
+    "learning_rate": 3.185e-07,
+    "num_tokens": 932474.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 4.24971804022789e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6845,
+    "step": 1369
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001222139224410057,
+    "learning_rate": 3.18e-07,
+    "num_tokens": 932840.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.3324194848537445e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.685,
+    "step": 1370
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8489810824394226,
+    "learning_rate": 3.175e-07,
+    "num_tokens": 933736.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 6.651133298873901e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6855,
+    "step": 1371
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.011709213256836,
+    "learning_rate": 3.17e-07,
+    "num_tokens": 934632.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 0.00015988852828741074,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.686,
+    "step": 1372
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012633471051231027,
+    "learning_rate": 3.165e-07,
+    "num_tokens": 935528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.4710544645786285e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6865,
+    "step": 1373
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6183916330337524,
+    "learning_rate": 3.1599999999999997e-07,
+    "num_tokens": 936424.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 2.9399991035461426e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.687,
+    "step": 1374
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.01003769040107727,
+    "learning_rate": 3.155e-07,
+    "num_tokens": 937320.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 0.00016684457659721375,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6875,
+    "step": 1375
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010148925939574838,
+    "learning_rate": 3.15e-07,
+    "num_tokens": 937686.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9999762773513794e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.688,
+    "step": 1376
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001714242622256279,
+    "learning_rate": 3.1449999999999996e-07,
+    "num_tokens": 938582.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.853470742702484e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6885,
+    "step": 1377
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5588313341140747,
+    "learning_rate": 3.14e-07,
+    "num_tokens": 939478.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.02687004767358303,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.02687004767358303,
+    "kl": 1.4209188520908356e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.689,
+    "step": 1378
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000599015795160085,
+    "learning_rate": 3.135e-07,
+    "num_tokens": 939844.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7828849852085114e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6895,
+    "step": 1379
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5653384923934937,
+    "learning_rate": 3.13e-07,
+    "num_tokens": 940740.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 5.6372955441474915e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.69,
+    "step": 1380
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6871844530105591,
+    "learning_rate": 3.1249999999999997e-07,
+    "num_tokens": 941636.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31607675552368164,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31607675552368164,
+    "kl": 3.4996308386325836e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6905,
+    "step": 1381
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000714326451998204,
+    "learning_rate": 3.12e-07,
+    "num_tokens": 942002.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4284236133098602e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.691,
+    "step": 1382
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0217498540878296,
+    "learning_rate": 3.115e-07,
+    "num_tokens": 942898.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 6.504356861114502e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6915,
+    "step": 1383
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9927207231521606,
+    "learning_rate": 3.1099999999999997e-07,
+    "num_tokens": 943794.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7999999523162842,
+    "rewards/environment_reward_verifier/std": 0.04949747025966644,
+    "reward": 0.7999999523162842,
+    "reward_std": 0.04949747025966644,
+    "kl": 5.958974361419678e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.692,
+    "step": 1384
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008056789520196617,
+    "learning_rate": 3.105e-07,
+    "num_tokens": 944160.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.547128289937973e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6925,
+    "step": 1385
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7982547879219055,
+    "learning_rate": 3.1e-07,
+    "num_tokens": 945056.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8400000333786011,
+    "rewards/environment_reward_verifier/std": 0.056568533182144165,
+    "reward": 0.8400000333786011,
+    "reward_std": 0.056568533182144165,
+    "kl": 2.9597431421279907e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.693,
+    "step": 1386
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001857105758972466,
+    "learning_rate": 3.0949999999999996e-07,
+    "num_tokens": 945422.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.553755909204483e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6935,
+    "step": 1387
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009268614230677485,
+    "learning_rate": 3.09e-07,
+    "num_tokens": 945788.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6863068342208862e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.694,
+    "step": 1388
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.010713160037994385,
+    "learning_rate": 3.085e-07,
+    "num_tokens": 946154.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.249895811080933e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6945,
+    "step": 1389
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006943625630810857,
+    "learning_rate": 3.08e-07,
+    "num_tokens": 946520.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.0948780477046967e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.695,
+    "step": 1390
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005994713283143938,
+    "learning_rate": 3.0749999999999997e-07,
+    "num_tokens": 946886.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.208965063095093e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6955,
+    "step": 1391
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005941269919276237,
+    "learning_rate": 3.07e-07,
+    "num_tokens": 947782.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 3.443937748670578e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.696,
+    "step": 1392
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016281341668218374,
+    "learning_rate": 3.065e-07,
+    "num_tokens": 948678.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 5.4708682000637054e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6965,
+    "step": 1393
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008499264949932694,
+    "learning_rate": 3.0599999999999996e-07,
+    "num_tokens": 949044.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.64379957318306e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.697,
+    "step": 1394
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8996263146400452,
+    "learning_rate": 3.055e-07,
+    "num_tokens": 949940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 7.260870188474655e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6975,
+    "step": 1395
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001844099722802639,
+    "learning_rate": 3.05e-07,
+    "num_tokens": 950836.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 5.3627416491508484e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.698,
+    "step": 1396
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6437634229660034,
+    "learning_rate": 3.0449999999999995e-07,
+    "num_tokens": 951732.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 2.2635795176029205e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6985,
+    "step": 1397
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012192694703117013,
+    "learning_rate": 3.0399999999999997e-07,
+    "num_tokens": 952098.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7929432690143585e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.699,
+    "step": 1398
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.092392921447754,
+    "learning_rate": 3.035e-07,
+    "num_tokens": 952994.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 0.00012940727174282074,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.6995,
+    "step": 1399
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012551175896078348,
+    "learning_rate": 3.03e-07,
+    "num_tokens": 953360.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.959665238857269e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7,
+    "step": 1400
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7426066994667053,
+    "learning_rate": 3.0249999999999996e-07,
+    "num_tokens": 954256.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7904999852180481,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7904999852180481,
+    "reward_std": 0.037476640194654465,
+    "kl": 2.7242116630077362e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7005,
+    "step": 1401
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8021246194839478,
+    "learning_rate": 3.02e-07,
+    "num_tokens": 955152.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.275927156209946e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.701,
+    "step": 1402
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010526307160034776,
+    "learning_rate": 3.015e-07,
+    "num_tokens": 955518.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.3847056329250336e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7015,
+    "step": 1403
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008919798419810832,
+    "learning_rate": 3.0099999999999996e-07,
+    "num_tokens": 956414.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.5351294577121735e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.702,
+    "step": 1404
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.9787451028823853,
+    "learning_rate": 3.0049999999999997e-07,
+    "num_tokens": 957310.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 5.8368779718875885e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7025,
+    "step": 1405
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8678433299064636,
+    "learning_rate": 3e-07,
+    "num_tokens": 958206.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.1750649213790894e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.703,
+    "step": 1406
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0366160869598389,
+    "learning_rate": 2.9949999999999995e-07,
+    "num_tokens": 959102.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 5.751661956310272e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7035,
+    "step": 1407
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.489668846130371,
+    "learning_rate": 2.9899999999999996e-07,
+    "num_tokens": 959998.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7999999523162842,
+    "rewards/environment_reward_verifier/std": 0.04949747025966644,
+    "reward": 0.7999999523162842,
+    "reward_std": 0.04949747025966644,
+    "kl": 0.00010025408118963242,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.704,
+    "step": 1408
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7787015438079834,
+    "learning_rate": 2.985e-07,
+    "num_tokens": 960894.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.357526242733002e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7045,
+    "step": 1409
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9409085512161255,
+    "learning_rate": 2.98e-07,
+    "num_tokens": 961790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.045254841446876526,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.045254841446876526,
+    "kl": 5.440693348646164e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.705,
+    "step": 1410
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015193913131952286,
+    "learning_rate": 2.9749999999999996e-07,
+    "num_tokens": 962686.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8140000104904175,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8140000104904175,
+    "reward_std": 0.0,
+    "kl": 6.182864308357239e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7055,
+    "step": 1411
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005187370115891099,
+    "learning_rate": 2.9699999999999997e-07,
+    "num_tokens": 963052.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.189353108406067e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.706,
+    "step": 1412
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.2034571170806885,
+    "learning_rate": 2.965e-07,
+    "num_tokens": 963948.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8250000476837158,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8250000476837158,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.0003419136628508568,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7065,
+    "step": 1413
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008707343367859721,
+    "learning_rate": 2.9599999999999995e-07,
+    "num_tokens": 964314.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.70638445019722e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.707,
+    "step": 1414
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.6375908255577087,
+    "learning_rate": 2.9549999999999997e-07,
+    "num_tokens": 965210.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.01555635966360569,
+    "kl": 3.099162131547928e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7075,
+    "step": 1415
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0078327655792236,
+    "learning_rate": 2.95e-07,
+    "num_tokens": 966106.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.00013838708400726318,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.708,
+    "step": 1416
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003951544873416424,
+    "learning_rate": 2.945e-07,
+    "num_tokens": 966472.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 9.117741137742996e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7085,
+    "step": 1417
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012011009966954589,
+    "learning_rate": 2.9399999999999996e-07,
+    "num_tokens": 967368.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 6.767082959413528e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.709,
+    "step": 1418
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015257024206221104,
+    "learning_rate": 2.935e-07,
+    "num_tokens": 967734.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9396265745162964e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7095,
+    "step": 1419
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001377312932163477,
+    "learning_rate": 2.93e-07,
+    "num_tokens": 968630.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 3.4086406230926514e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.71,
+    "step": 1420
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00485027814283967,
+    "learning_rate": 2.9249999999999995e-07,
+    "num_tokens": 969526.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00010971631854772568,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7105,
+    "step": 1421
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008110209600999951,
+    "learning_rate": 2.9199999999999997e-07,
+    "num_tokens": 969892.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.389533281326294e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.711,
+    "step": 1422
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.8266608119010925,
+    "learning_rate": 2.915e-07,
+    "num_tokens": 970788.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 2.826191484928131e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7115,
+    "step": 1423
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00047775241546332836,
+    "learning_rate": 2.9099999999999995e-07,
+    "num_tokens": 971684.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3300759494304657e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.712,
+    "step": 1424
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2217819690704346,
+    "learning_rate": 2.9049999999999996e-07,
+    "num_tokens": 972580.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.288515239953995e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7125,
+    "step": 1425
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6611891984939575,
+    "learning_rate": 2.9e-07,
+    "num_tokens": 973476.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.824999988079071,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.824999988079071,
+    "reward_std": 0.011313731782138348,
+    "kl": 4.2975880205631256e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.713,
+    "step": 1426
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005366262048482895,
+    "learning_rate": 2.895e-07,
+    "num_tokens": 973842.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.587307244539261e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7135,
+    "step": 1427
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000767569406889379,
+    "learning_rate": 2.8899999999999995e-07,
+    "num_tokens": 974208.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7854926884174347e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.714,
+    "step": 1428
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00042317734914831817,
+    "learning_rate": 2.8849999999999997e-07,
+    "num_tokens": 975104.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 2.3975037038326263e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7145,
+    "step": 1429
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00044755812268704176,
+    "learning_rate": 2.88e-07,
+    "num_tokens": 976000.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.5684013962745667e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.715,
+    "step": 1430
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008439691155217588,
+    "learning_rate": 2.8749999999999995e-07,
+    "num_tokens": 976366.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.1568499505519867e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7155,
+    "step": 1431
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013360042357817292,
+    "learning_rate": 2.8699999999999996e-07,
+    "num_tokens": 976732.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.739702075719833e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.716,
+    "step": 1432
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004178944975137711,
+    "learning_rate": 2.865e-07,
+    "num_tokens": 977098.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 7.513351738452911e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7165,
+    "step": 1433
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007262816070578992,
+    "learning_rate": 2.8599999999999994e-07,
+    "num_tokens": 977464.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.949777990579605e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.717,
+    "step": 1434
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012204928789287806,
+    "learning_rate": 2.8549999999999996e-07,
+    "num_tokens": 977830.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.5828910768032074e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7175,
+    "step": 1435
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8220816254615784,
+    "learning_rate": 2.8499999999999997e-07,
+    "num_tokens": 978726.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 0.00011288374662399292,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.718,
+    "step": 1436
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007931955042295158,
+    "learning_rate": 2.845e-07,
+    "num_tokens": 979092.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.172643482685089e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7185,
+    "step": 1437
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1544042825698853,
+    "learning_rate": 2.8399999999999995e-07,
+    "num_tokens": 979988.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8355000019073486,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8355000019073486,
+    "reward_std": 0.030405579134821892,
+    "kl": 7.341429591178894e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.719,
+    "step": 1438
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005520334816537797,
+    "learning_rate": 2.8349999999999996e-07,
+    "num_tokens": 980884.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.8331764042377472e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7195,
+    "step": 1439
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004403255879878998,
+    "learning_rate": 2.83e-07,
+    "num_tokens": 981250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.0412728190422058e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.72,
+    "step": 1440
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7322037220001221,
+    "learning_rate": 2.8249999999999994e-07,
+    "num_tokens": 982146.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.950243651866913e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7205,
+    "step": 1441
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010377311846241355,
+    "learning_rate": 2.8199999999999996e-07,
+    "num_tokens": 982512.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.483425825834274e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.721,
+    "step": 1442
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5152266621589661,
+    "learning_rate": 2.8149999999999997e-07,
+    "num_tokens": 983408.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 1.6961246728897095e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7215,
+    "step": 1443
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004680828657001257,
+    "learning_rate": 2.8100000000000004e-07,
+    "num_tokens": 983774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.511714309453964e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.722,
+    "step": 1444
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006535202264785767,
+    "learning_rate": 2.805e-07,
+    "num_tokens": 984670.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.348011523485184e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7225,
+    "step": 1445
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008985276799649,
+    "learning_rate": 2.8e-07,
+    "num_tokens": 985036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.367103636264801e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.723,
+    "step": 1446
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010757588315755129,
+    "learning_rate": 2.7950000000000003e-07,
+    "num_tokens": 985932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 4.555657505989075e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7235,
+    "step": 1447
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008238382870331407,
+    "learning_rate": 2.79e-07,
+    "num_tokens": 986298.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9938295483589172e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.724,
+    "step": 1448
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008969150367192924,
+    "learning_rate": 2.785e-07,
+    "num_tokens": 986664.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.353878855705261e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7245,
+    "step": 1449
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009511377429589629,
+    "learning_rate": 2.7800000000000003e-07,
+    "num_tokens": 987030.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.065129905939102e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.725,
+    "step": 1450
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007412993581965566,
+    "learning_rate": 2.775e-07,
+    "num_tokens": 987396.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.939479261636734e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7255,
+    "step": 1451
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006103027262724936,
+    "learning_rate": 2.77e-07,
+    "num_tokens": 987762.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.47051939368248e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.726,
+    "step": 1452
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012461054138839245,
+    "learning_rate": 2.765e-07,
+    "num_tokens": 988128.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.908908158540726e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7265,
+    "step": 1453
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7985588908195496,
+    "learning_rate": 2.7600000000000004e-07,
+    "num_tokens": 989024.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7854999899864197,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7854999899864197,
+    "reward_std": 0.037476640194654465,
+    "kl": 4.825275391340256e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.727,
+    "step": 1454
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008023115806281567,
+    "learning_rate": 2.755e-07,
+    "num_tokens": 989920.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.208313137292862e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7275,
+    "step": 1455
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016813237452879548,
+    "learning_rate": 2.75e-07,
+    "num_tokens": 990286.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.5924057960510254e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.728,
+    "step": 1456
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013601853279396892,
+    "learning_rate": 2.7450000000000003e-07,
+    "num_tokens": 990652.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.119200795888901e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7285,
+    "step": 1457
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.802211344242096,
+    "learning_rate": 2.74e-07,
+    "num_tokens": 991548.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.0021212929859757423,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.0021212929859757423,
+    "kl": 5.8710575103759766e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.729,
+    "step": 1458
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0022085753735154867,
+    "learning_rate": 2.735e-07,
+    "num_tokens": 991914.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.9602782130241394e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7295,
+    "step": 1459
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007408488309010863,
+    "learning_rate": 2.73e-07,
+    "num_tokens": 992280.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.52049246430397e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.73,
+    "step": 1460
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001600884017534554,
+    "learning_rate": 2.725e-07,
+    "num_tokens": 993176.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8560000061988831,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8560000061988831,
+    "reward_std": 0.0,
+    "kl": 6.529409438371658e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7305,
+    "step": 1461
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013077593175694346,
+    "learning_rate": 2.72e-07,
+    "num_tokens": 993542.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.763249307870865e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.731,
+    "step": 1462
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006298540392890573,
+    "learning_rate": 2.715e-07,
+    "num_tokens": 994438.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 2.8800219297409058e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7315,
+    "step": 1463
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1219033002853394,
+    "learning_rate": 2.7100000000000003e-07,
+    "num_tokens": 995334.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 0.00019954796880483627,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.732,
+    "step": 1464
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009468385251238942,
+    "learning_rate": 2.705e-07,
+    "num_tokens": 996230.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.38199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.38199999928474426,
+    "reward_std": 0.0,
+    "kl": 3.767292946577072e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7325,
+    "step": 1465
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015062256716191769,
+    "learning_rate": 2.7e-07,
+    "num_tokens": 996596.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.980271190404892e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.733,
+    "step": 1466
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000680701807141304,
+    "learning_rate": 2.695e-07,
+    "num_tokens": 997492.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 4.730746150016785e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7335,
+    "step": 1467
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00220138905569911,
+    "learning_rate": 2.69e-07,
+    "num_tokens": 997858.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.7437152564525604e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.734,
+    "step": 1468
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007745574112050235,
+    "learning_rate": 2.685e-07,
+    "num_tokens": 998754.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 2.881605178117752e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7345,
+    "step": 1469
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7212503552436829,
+    "learning_rate": 2.68e-07,
+    "num_tokens": 999650.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.0021212929859757423,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.0021212929859757423,
+    "kl": 0.00011175964027643204,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.735,
+    "step": 1470
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7467300295829773,
+    "learning_rate": 2.675e-07,
+    "num_tokens": 1000546.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 3.479979932308197e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7355,
+    "step": 1471
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011473192134872079,
+    "learning_rate": 2.67e-07,
+    "num_tokens": 1000912.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.285760223865509e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.736,
+    "step": 1472
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6855739951133728,
+    "learning_rate": 2.665e-07,
+    "num_tokens": 1001808.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.9821880161762238e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7365,
+    "step": 1473
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009315242641605437,
+    "learning_rate": 2.66e-07,
+    "num_tokens": 1002174.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.0528753995895386e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.737,
+    "step": 1474
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007502164226025343,
+    "learning_rate": 2.655e-07,
+    "num_tokens": 1003070.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 4.344619810581207e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7375,
+    "step": 1475
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011874843621626496,
+    "learning_rate": 2.65e-07,
+    "num_tokens": 1003436.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.520399332046509e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.738,
+    "step": 1476
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0074364058673381805,
+    "learning_rate": 2.645e-07,
+    "num_tokens": 1004332.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8569999933242798,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8569999933242798,
+    "reward_std": 0.0,
+    "kl": 0.00015626568347215652,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7385,
+    "step": 1477
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6913915276527405,
+    "learning_rate": 2.64e-07,
+    "num_tokens": 1005228.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.3711472749710083e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.739,
+    "step": 1478
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7458115816116333,
+    "learning_rate": 2.635e-07,
+    "num_tokens": 1006124.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5744999647140503,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5744999647140503,
+    "reward_std": 0.27082186937332153,
+    "kl": 4.4743530452251434e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7395,
+    "step": 1479
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9545727968215942,
+    "learning_rate": 2.63e-07,
+    "num_tokens": 1007020.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 5.8341771364212036e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.74,
+    "step": 1480
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005918386159464717,
+    "learning_rate": 2.625e-07,
+    "num_tokens": 1007386.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.8104521334171295e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7405,
+    "step": 1481
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007409105310216546,
+    "learning_rate": 2.62e-07,
+    "num_tokens": 1008282.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 3.8562342524528503e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.741,
+    "step": 1482
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0022666389122605324,
+    "learning_rate": 2.615e-07,
+    "num_tokens": 1009178.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8560000061988831,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8560000061988831,
+    "reward_std": 0.0,
+    "kl": 5.13000413775444e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7415,
+    "step": 1483
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009365888545289636,
+    "learning_rate": 2.61e-07,
+    "num_tokens": 1009544.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.640167415142059e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.742,
+    "step": 1484
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014286866644397378,
+    "learning_rate": 2.605e-07,
+    "num_tokens": 1009910.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.191882908344269e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7425,
+    "step": 1485
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000844051013700664,
+    "learning_rate": 2.6e-07,
+    "num_tokens": 1010276.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.2312084436416626e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.743,
+    "step": 1486
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8638677000999451,
+    "learning_rate": 2.595e-07,
+    "num_tokens": 1011172.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 5.143415182828903e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7435,
+    "step": 1487
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.019279703497886658,
+    "learning_rate": 2.59e-07,
+    "num_tokens": 1012068.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8569999933242798,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8569999933242798,
+    "reward_std": 0.0,
+    "kl": 0.00023065321147441864,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.744,
+    "step": 1488
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011295841541141272,
+    "learning_rate": 2.585e-07,
+    "num_tokens": 1012434.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.8337504267692566e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7445,
+    "step": 1489
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028237486258149147,
+    "learning_rate": 2.58e-07,
+    "num_tokens": 1012800.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.197750240564346e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.745,
+    "step": 1490
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7583287358283997,
+    "learning_rate": 2.5749999999999997e-07,
+    "num_tokens": 1013696.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 6.28037378191948e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7455,
+    "step": 1491
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9933559894561768,
+    "learning_rate": 2.57e-07,
+    "num_tokens": 1014592.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8365000486373901,
+    "rewards/environment_reward_verifier/std": 0.01909189112484455,
+    "reward": 0.8365000486373901,
+    "reward_std": 0.01909189112484455,
+    "kl": 8.109863847494125e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.746,
+    "step": 1492
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.006516456604004,
+    "learning_rate": 2.565e-07,
+    "num_tokens": 1015488.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 8.907169103622437e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7465,
+    "step": 1493
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009460377041250467,
+    "learning_rate": 2.56e-07,
+    "num_tokens": 1015854.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.212092608213425e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.747,
+    "step": 1494
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.029313264414668083,
+    "learning_rate": 2.555e-07,
+    "num_tokens": 1016750.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.00027726683765649796,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7475,
+    "step": 1495
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.48710012435913086,
+    "learning_rate": 2.55e-07,
+    "num_tokens": 1017646.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.0809471607208252e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.748,
+    "step": 1496
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6663738489151001,
+    "learning_rate": 2.545e-07,
+    "num_tokens": 1018542.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8109999895095825,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8109999895095825,
+    "reward_std": 0.01555635966360569,
+    "kl": 5.486141890287399e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7485,
+    "step": 1497
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006897600833326578,
+    "learning_rate": 2.5399999999999997e-07,
+    "num_tokens": 1018908.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.488214522600174e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.749,
+    "step": 1498
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011770074488595128,
+    "learning_rate": 2.535e-07,
+    "num_tokens": 1019804.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.8412010073661804e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7495,
+    "step": 1499
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006154448492452502,
+    "learning_rate": 2.53e-07,
+    "num_tokens": 1020700.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.367103636264801e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.75,
+    "step": 1500
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016679060645401478,
+    "learning_rate": 2.5249999999999996e-07,
+    "num_tokens": 1021066.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.5816955864429474e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7505,
+    "step": 1501
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.541278064250946,
+    "learning_rate": 2.52e-07,
+    "num_tokens": 1021962.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8285000324249268,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8285000324249268,
+    "reward_std": 0.0007070977007970214,
+    "kl": 0.00013221707195043564,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.751,
+    "step": 1502
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014445210108533502,
+    "learning_rate": 2.515e-07,
+    "num_tokens": 1022328.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.9596110582351685e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7515,
+    "step": 1503
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7894119620323181,
+    "learning_rate": 2.51e-07,
+    "num_tokens": 1023224.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.7989579141139984e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.752,
+    "step": 1504
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007809365633875132,
+    "learning_rate": 2.5049999999999997e-07,
+    "num_tokens": 1023590.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 7.900409400463104e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7525,
+    "step": 1505
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001254385570064187,
+    "learning_rate": 2.5e-07,
+    "num_tokens": 1023956.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.07220795750618e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.753,
+    "step": 1506
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020893942564725876,
+    "learning_rate": 2.495e-07,
+    "num_tokens": 1024852.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8360000252723694,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8360000252723694,
+    "reward_std": 0.0,
+    "kl": 0.00010944623500108719,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7535,
+    "step": 1507
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008904547430574894,
+    "learning_rate": 2.4899999999999997e-07,
+    "num_tokens": 1025748.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 3.521237522363663e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.754,
+    "step": 1508
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0072859525680542,
+    "learning_rate": 2.485e-07,
+    "num_tokens": 1026644.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 1.9727274775505066e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7545,
+    "step": 1509
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005649761762470007,
+    "learning_rate": 2.48e-07,
+    "num_tokens": 1027540.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00011086929589509964,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.755,
+    "step": 1510
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9958588480949402,
+    "learning_rate": 2.475e-07,
+    "num_tokens": 1028436.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.7653371691703796e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7555,
+    "step": 1511
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2141926288604736,
+    "learning_rate": 2.47e-07,
+    "num_tokens": 1029332.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.609499990940094,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.609499990940094,
+    "reward_std": 0.32031938433647156,
+    "kl": 8.317455649375916e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.756,
+    "step": 1512
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011213469551876187,
+    "learning_rate": 2.465e-07,
+    "num_tokens": 1029698.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.226900637149811e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7565,
+    "step": 1513
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7629797458648682,
+    "learning_rate": 2.46e-07,
+    "num_tokens": 1030594.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.6388093829154968e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.757,
+    "step": 1514
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5527917742729187,
+    "learning_rate": 2.4549999999999997e-07,
+    "num_tokens": 1031490.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.778243601322174e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7575,
+    "step": 1515
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6782432794570923,
+    "learning_rate": 2.45e-07,
+    "num_tokens": 1032386.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8355000019073486,
+    "rewards/environment_reward_verifier/std": 0.030405579134821892,
+    "reward": 0.8355000019073486,
+    "reward_std": 0.030405579134821892,
+    "kl": 5.2094459533691406e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.758,
+    "step": 1516
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0038548826705664396,
+    "learning_rate": 2.445e-07,
+    "num_tokens": 1033282.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.38199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.38199999928474426,
+    "reward_std": 0.0,
+    "kl": 7.656030356884003e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7585,
+    "step": 1517
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009280137601308525,
+    "learning_rate": 2.4399999999999996e-07,
+    "num_tokens": 1033648.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.349354326725006e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.759,
+    "step": 1518
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006928169168531895,
+    "learning_rate": 2.435e-07,
+    "num_tokens": 1034544.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 3.481842577457428e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7595,
+    "step": 1519
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008756217430345714,
+    "learning_rate": 2.43e-07,
+    "num_tokens": 1034910.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8233975172042847e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.76,
+    "step": 1520
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006150489789433777,
+    "learning_rate": 2.425e-07,
+    "num_tokens": 1035806.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 4.21423465013504e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7605,
+    "step": 1521
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9960310459136963,
+    "learning_rate": 2.4199999999999997e-07,
+    "num_tokens": 1036702.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 0.00010388623923063278,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.761,
+    "step": 1522
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7770252823829651,
+    "learning_rate": 2.415e-07,
+    "num_tokens": 1037598.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.565500020980835,
+    "rewards/environment_reward_verifier/std": 0.2637507915496826,
+    "reward": 0.565500020980835,
+    "reward_std": 0.2637507915496826,
+    "kl": 5.447492003440857e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7615,
+    "step": 1523
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8710464239120483,
+    "learning_rate": 2.41e-07,
+    "num_tokens": 1038494.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8454999923706055,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8454999923706055,
+    "reward_std": 0.014849262312054634,
+    "kl": 3.6337412893772125e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.762,
+    "step": 1524
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007435260922648013,
+    "learning_rate": 2.4049999999999996e-07,
+    "num_tokens": 1038860.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6765279471874237e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7625,
+    "step": 1525
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7789291739463806,
+    "learning_rate": 2.4e-07,
+    "num_tokens": 1039756.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.844313323497772e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.763,
+    "step": 1526
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.866211473941803,
+    "learning_rate": 2.395e-07,
+    "num_tokens": 1040652.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 7.869582623243332e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7635,
+    "step": 1527
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014106653397902846,
+    "learning_rate": 2.3899999999999996e-07,
+    "num_tokens": 1041548.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.0,
+    "kl": 4.794169217348099e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.764,
+    "step": 1528
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.925835907459259,
+    "learning_rate": 2.3849999999999997e-07,
+    "num_tokens": 1042444.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7999999523162842,
+    "rewards/environment_reward_verifier/std": 0.04949747025966644,
+    "reward": 0.7999999523162842,
+    "reward_std": 0.04949747025966644,
+    "kl": 5.22807240486145e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7645,
+    "step": 1529
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0028158905915915966,
+    "learning_rate": 2.38e-07,
+    "num_tokens": 1042810.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 8.856505155563354e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.765,
+    "step": 1530
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6579874753952026,
+    "learning_rate": 2.3749999999999998e-07,
+    "num_tokens": 1043706.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8004999756813049,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.8004999756813049,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.453584551811218e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7655,
+    "step": 1531
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006663826643489301,
+    "learning_rate": 2.3699999999999996e-07,
+    "num_tokens": 1044072.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.5161541998386383e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.766,
+    "step": 1532
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009142456110566854,
+    "learning_rate": 2.3649999999999998e-07,
+    "num_tokens": 1044438.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.51443886756897e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7665,
+    "step": 1533
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010897335596382618,
+    "learning_rate": 2.3599999999999997e-07,
+    "num_tokens": 1044804.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.8941390812397e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.767,
+    "step": 1534
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9638667106628418,
+    "learning_rate": 2.3549999999999998e-07,
+    "num_tokens": 1045700.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 9.973067790269852e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7675,
+    "step": 1535
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 0.1486448496580124,
+    "learning_rate": 2.3499999999999997e-07,
+    "num_tokens": 1046596.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 0.0019078860059380531,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.768,
+    "step": 1536
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011578103294596076,
+    "learning_rate": 2.3449999999999996e-07,
+    "num_tokens": 1046962.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.5416876673698425e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7685,
+    "step": 1537
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000997197232209146,
+    "learning_rate": 2.34e-07,
+    "num_tokens": 1047328.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.3618882298469543e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.769,
+    "step": 1538
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001980582484975457,
+    "learning_rate": 2.335e-07,
+    "num_tokens": 1048224.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8360000252723694,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8360000252723694,
+    "reward_std": 0.0,
+    "kl": 5.5631622672080994e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7695,
+    "step": 1539
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7257095575332642,
+    "learning_rate": 2.33e-07,
+    "num_tokens": 1049120.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 3.772880882024765e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.77,
+    "step": 1540
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010103528620675206,
+    "learning_rate": 2.325e-07,
+    "num_tokens": 1049486.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.966689109802246e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7705,
+    "step": 1541
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7430920004844666,
+    "learning_rate": 2.32e-07,
+    "num_tokens": 1050382.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 4.794076085090637e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.771,
+    "step": 1542
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009718029759824276,
+    "learning_rate": 2.315e-07,
+    "num_tokens": 1051278.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.123484879732132e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7715,
+    "step": 1543
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.5792695879936218,
+    "learning_rate": 2.31e-07,
+    "num_tokens": 1052174.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8209999799728394,
+    "rewards/environment_reward_verifier/std": 0.0014142375439405441,
+    "reward": 0.8209999799728394,
+    "reward_std": 0.0014142375439405441,
+    "kl": 5.393102765083313e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.772,
+    "step": 1544
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2712446451187134,
+    "learning_rate": 2.305e-07,
+    "num_tokens": 1053070.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5900000333786011,
+    "rewards/environment_reward_verifier/std": 0.29698485136032104,
+    "reward": 0.5900000333786011,
+    "reward_std": 0.29698485136032104,
+    "kl": 6.802938878536224e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7725,
+    "step": 1545
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6029819250106812,
+    "learning_rate": 2.3e-07,
+    "num_tokens": 1053966.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 4.980899393558502e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.773,
+    "step": 1546
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7989152073860168,
+    "learning_rate": 2.295e-07,
+    "num_tokens": 1054862.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843500018119812,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.843500018119812,
+    "reward_std": 0.016263457015156746,
+    "kl": 6.110034883022308e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7735,
+    "step": 1547
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020734556019306183,
+    "learning_rate": 2.29e-07,
+    "num_tokens": 1055228.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.111882299184799e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.774,
+    "step": 1548
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1049245595932007,
+    "learning_rate": 2.285e-07,
+    "num_tokens": 1056124.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.815500020980835,
+    "rewards/environment_reward_verifier/std": 0.012020829133689404,
+    "reward": 0.815500020980835,
+    "reward_std": 0.012020829133689404,
+    "kl": 0.00013441313058137894,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7745,
+    "step": 1549
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004347025416791439,
+    "learning_rate": 2.28e-07,
+    "num_tokens": 1057020.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8560000061988831,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8560000061988831,
+    "reward_std": 0.0,
+    "kl": 3.883149474859238e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.775,
+    "step": 1550
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0030298628844320774,
+    "learning_rate": 2.275e-07,
+    "num_tokens": 1057386.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.721703827381134e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7755,
+    "step": 1551
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004023867077194154,
+    "learning_rate": 2.27e-07,
+    "num_tokens": 1058282.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 1.8894672393798828e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.776,
+    "step": 1552
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006335912039503455,
+    "learning_rate": 2.265e-07,
+    "num_tokens": 1058648.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.3688189685344696e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7765,
+    "step": 1553
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8788871169090271,
+    "learning_rate": 2.2599999999999999e-07,
+    "num_tokens": 1059544.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 8.051283657550812e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.777,
+    "step": 1554
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010447928216308355,
+    "learning_rate": 2.255e-07,
+    "num_tokens": 1059910.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.571396857500076e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7775,
+    "step": 1555
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9580017924308777,
+    "learning_rate": 2.25e-07,
+    "num_tokens": 1060806.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 5.83576038479805e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.778,
+    "step": 1556
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000741632713470608,
+    "learning_rate": 2.245e-07,
+    "num_tokens": 1061172.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6345252990722656e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7785,
+    "step": 1557
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7395283579826355,
+    "learning_rate": 2.24e-07,
+    "num_tokens": 1062068.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 4.054047167301178e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.779,
+    "step": 1558
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001459570717997849,
+    "learning_rate": 2.2349999999999998e-07,
+    "num_tokens": 1062434.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.2844563722610474e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7795,
+    "step": 1559
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007419899338856339,
+    "learning_rate": 2.23e-07,
+    "num_tokens": 1063330.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.408787935972214e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.78,
+    "step": 1560
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.872297465801239,
+    "learning_rate": 2.225e-07,
+    "num_tokens": 1064226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6190000176429749,
+    "rewards/environment_reward_verifier/std": 0.33516862988471985,
+    "reward": 0.6190000176429749,
+    "reward_std": 0.33516862988471985,
+    "kl": 8.444022387266159e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7805,
+    "step": 1561
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013025372754782438,
+    "learning_rate": 2.22e-07,
+    "num_tokens": 1065122.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7879999876022339,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7879999876022339,
+    "reward_std": 0.0,
+    "kl": 4.2776577174663544e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.781,
+    "step": 1562
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7462071180343628,
+    "learning_rate": 2.215e-07,
+    "num_tokens": 1066018.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8314999938011169,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8314999938011169,
+    "reward_std": 0.016263457015156746,
+    "kl": 5.4595060646533966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7815,
+    "step": 1563
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002291295910254121,
+    "learning_rate": 2.2099999999999998e-07,
+    "num_tokens": 1066384.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.212666630744934e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.782,
+    "step": 1564
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 1.4264631271362305,
+    "learning_rate": 2.205e-07,
+    "num_tokens": 1067280.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8344999551773071,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8344999551773071,
+    "reward_std": 0.0007070977007970214,
+    "kl": 4.3925829231739044e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7825,
+    "step": 1565
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015623174840584397,
+    "learning_rate": 2.1999999999999998e-07,
+    "num_tokens": 1067646.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.921426832675934e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.783,
+    "step": 1566
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0029900292865931988,
+    "learning_rate": 2.195e-07,
+    "num_tokens": 1068012.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.1206756830215454e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7835,
+    "step": 1567
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0052716792561113834,
+    "learning_rate": 2.19e-07,
+    "num_tokens": 1068378.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00011092331260442734,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.784,
+    "step": 1568
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6562672853469849,
+    "learning_rate": 2.1849999999999998e-07,
+    "num_tokens": 1069274.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.1152740120887756e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7845,
+    "step": 1569
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9454992413520813,
+    "learning_rate": 2.18e-07,
+    "num_tokens": 1070170.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.633702337741852e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.785,
+    "step": 1570
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009240294457413256,
+    "learning_rate": 2.1749999999999998e-07,
+    "num_tokens": 1071066.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 5.4377131164073944e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7855,
+    "step": 1571
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005841344245709479,
+    "learning_rate": 2.17e-07,
+    "num_tokens": 1071432.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6757828891277313e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.786,
+    "step": 1572
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5484344959259033,
+    "learning_rate": 2.1649999999999999e-07,
+    "num_tokens": 1072328.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.045254841446876526,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.045254841446876526,
+    "kl": 4.1765160858631134e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7865,
+    "step": 1573
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011522466083988547,
+    "learning_rate": 2.1599999999999998e-07,
+    "num_tokens": 1072694.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.2556395530700684e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.787,
+    "step": 1574
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010642482666298747,
+    "learning_rate": 2.155e-07,
+    "num_tokens": 1073060.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.194250166416168e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7875,
+    "step": 1575
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004986397107131779,
+    "learning_rate": 2.1499999999999998e-07,
+    "num_tokens": 1073956.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 1.7260201275348663e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.788,
+    "step": 1576
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.010080178268253803,
+    "learning_rate": 2.145e-07,
+    "num_tokens": 1074852.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.0001212460920214653,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7885,
+    "step": 1577
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8077563047409058,
+    "learning_rate": 2.1399999999999998e-07,
+    "num_tokens": 1075748.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 0.00012228917330503464,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.789,
+    "step": 1578
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001300574280321598,
+    "learning_rate": 2.1349999999999997e-07,
+    "num_tokens": 1076114.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.275088965892792e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7895,
+    "step": 1579
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015755236381664872,
+    "learning_rate": 2.13e-07,
+    "num_tokens": 1076480.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.367103636264801e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.79,
+    "step": 1580
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020857423078268766,
+    "learning_rate": 2.1249999999999998e-07,
+    "num_tokens": 1076846.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.3896416425704956e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7905,
+    "step": 1581
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5299270153045654,
+    "learning_rate": 2.12e-07,
+    "num_tokens": 1077742.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.08909548819065094,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.08909548819065094,
+    "kl": 2.506934106349945e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.791,
+    "step": 1582
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011763119837269187,
+    "learning_rate": 2.1149999999999998e-07,
+    "num_tokens": 1078108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.5983120799064636e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7915,
+    "step": 1583
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001765949185937643,
+    "learning_rate": 2.1099999999999997e-07,
+    "num_tokens": 1079004.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.558839231729507e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.792,
+    "step": 1584
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000826952513307333,
+    "learning_rate": 2.1049999999999999e-07,
+    "num_tokens": 1079370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.525467425584793e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7925,
+    "step": 1585
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004427609674166888,
+    "learning_rate": 2.0999999999999997e-07,
+    "num_tokens": 1079736.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.3214536011219025e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.793,
+    "step": 1586
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011962472926825285,
+    "learning_rate": 2.095e-07,
+    "num_tokens": 1080102.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.326591104269028e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7935,
+    "step": 1587
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016075981548056006,
+    "learning_rate": 2.0899999999999998e-07,
+    "num_tokens": 1080468.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9566697776317596e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.794,
+    "step": 1588
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9348431825637817,
+    "learning_rate": 2.085e-07,
+    "num_tokens": 1081364.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 0.00014391914010047913,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7945,
+    "step": 1589
+  },
+  {
+    "loss": 0.0001,
+    "grad_norm": 6.403285026550293,
+    "learning_rate": 2.0799999999999998e-07,
+    "num_tokens": 1082260.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.001313304528594017,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.795,
+    "step": 1590
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2276204824447632,
+    "learning_rate": 2.0749999999999997e-07,
+    "num_tokens": 1083156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8374999761581421,
+    "rewards/environment_reward_verifier/std": 0.026162952184677124,
+    "reward": 0.8374999761581421,
+    "reward_std": 0.026162952184677124,
+    "kl": 8.566584438085556e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7955,
+    "step": 1591
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7293785810470581,
+    "learning_rate": 2.07e-07,
+    "num_tokens": 1084052.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8289999961853027,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8289999961853027,
+    "reward_std": 0.0014141954015940428,
+    "kl": 6.05238601565361e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.796,
+    "step": 1592
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007735049584880471,
+    "learning_rate": 2.0649999999999998e-07,
+    "num_tokens": 1084418.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.9413960874080658e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7965,
+    "step": 1593
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005749748088419437,
+    "learning_rate": 2.06e-07,
+    "num_tokens": 1084784.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9215978682041168e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.797,
+    "step": 1594
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0623031854629517,
+    "learning_rate": 2.0549999999999998e-07,
+    "num_tokens": 1085680.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 5.367118865251541e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7975,
+    "step": 1595
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7510759234428406,
+    "learning_rate": 2.0499999999999997e-07,
+    "num_tokens": 1086576.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 5.256757140159607e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.798,
+    "step": 1596
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7434391975402832,
+    "learning_rate": 2.0449999999999998e-07,
+    "num_tokens": 1087472.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31183406710624695,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31183406710624695,
+    "kl": 5.564093589782715e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7985,
+    "step": 1597
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007738731219433248,
+    "learning_rate": 2.0399999999999997e-07,
+    "num_tokens": 1088368.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7960000038146973,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7960000038146973,
+    "reward_std": 0.0,
+    "kl": 4.332512617111206e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.799,
+    "step": 1598
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5968071222305298,
+    "learning_rate": 2.035e-07,
+    "num_tokens": 1089264.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00015922915190458298,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.7995,
+    "step": 1599
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011912197805941105,
+    "learning_rate": 2.03e-07,
+    "num_tokens": 1090160.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 5.2143819630146027e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8,
+    "step": 1600
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012906340416520834,
+    "learning_rate": 2.025e-07,
+    "num_tokens": 1091056.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.3326599299907684e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8005,
+    "step": 1601
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013231480261310935,
+    "learning_rate": 2.02e-07,
+    "num_tokens": 1091422.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.551706999540329e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.801,
+    "step": 1602
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00767257995903492,
+    "learning_rate": 2.015e-07,
+    "num_tokens": 1091788.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00010890420526266098,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8015,
+    "step": 1603
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014246352948248386,
+    "learning_rate": 2.01e-07,
+    "num_tokens": 1092684.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.878000020980835,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.878000020980835,
+    "reward_std": 0.0,
+    "kl": 4.823412746191025e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.802,
+    "step": 1604
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005558141507208347,
+    "learning_rate": 2.005e-07,
+    "num_tokens": 1093050.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.20640304684639e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8025,
+    "step": 1605
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.835629403591156,
+    "learning_rate": 2e-07,
+    "num_tokens": 1093946.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 6.555672734975815e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.803,
+    "step": 1606
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.010273814201355,
+    "learning_rate": 1.995e-07,
+    "num_tokens": 1094842.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.01555635966360569,
+    "kl": 8.833687752485275e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8035,
+    "step": 1607
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005389400757849216,
+    "learning_rate": 1.99e-07,
+    "num_tokens": 1095738.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 3.917329013347626e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.804,
+    "step": 1608
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001107304240576923,
+    "learning_rate": 1.985e-07,
+    "num_tokens": 1096634.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.467833787202835e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8045,
+    "step": 1609
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6192328929901123,
+    "learning_rate": 1.98e-07,
+    "num_tokens": 1097530.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 2.8448179364204407e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.805,
+    "step": 1610
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010528776329010725,
+    "learning_rate": 1.975e-07,
+    "num_tokens": 1097896.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.906952381134033e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8055,
+    "step": 1611
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8730188012123108,
+    "learning_rate": 1.97e-07,
+    "num_tokens": 1098792.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5659999847412109,
+    "rewards/environment_reward_verifier/std": 0.26304370164871216,
+    "reward": 0.5659999847412109,
+    "reward_std": 0.26304370164871216,
+    "kl": 8.165556937456131e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.806,
+    "step": 1612
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003221945371478796,
+    "learning_rate": 1.965e-07,
+    "num_tokens": 1099158.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.885811358690262e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8065,
+    "step": 1613
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002188287442550063,
+    "learning_rate": 1.96e-07,
+    "num_tokens": 1099524.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.95066186785698e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.807,
+    "step": 1614
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005099984700791538,
+    "learning_rate": 1.955e-07,
+    "num_tokens": 1100420.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 2.9620714485645294e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8075,
+    "step": 1615
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010692180367186666,
+    "learning_rate": 1.9499999999999999e-07,
+    "num_tokens": 1100786.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.5768222510814667e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.808,
+    "step": 1616
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000704990467056632,
+    "learning_rate": 1.945e-07,
+    "num_tokens": 1101682.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7565285563468933e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8085,
+    "step": 1617
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007767347269691527,
+    "learning_rate": 1.94e-07,
+    "num_tokens": 1102048.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.1250139474868774e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.809,
+    "step": 1618
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7776121497154236,
+    "learning_rate": 1.935e-07,
+    "num_tokens": 1102944.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5975000262260437,
+    "rewards/environment_reward_verifier/std": 0.3047630488872528,
+    "reward": 0.5975000262260437,
+    "reward_std": 0.3047630488872528,
+    "kl": 5.421321839094162e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8095,
+    "step": 1619
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.014690214768052101,
+    "learning_rate": 1.93e-07,
+    "num_tokens": 1103310.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00018547195941209793,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.81,
+    "step": 1620
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0280709266662598,
+    "learning_rate": 1.9249999999999998e-07,
+    "num_tokens": 1104206.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7904999852180481,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7904999852180481,
+    "reward_std": 0.037476640194654465,
+    "kl": 6.31827861070633e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8105,
+    "step": 1621
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1227260828018188,
+    "learning_rate": 1.92e-07,
+    "num_tokens": 1105102.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8250000476837158,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8250000476837158,
+    "reward_std": 0.01555635966360569,
+    "kl": 3.284774720668793e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.811,
+    "step": 1622
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007454422884620726,
+    "learning_rate": 1.915e-07,
+    "num_tokens": 1105468.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.224611282348633e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8115,
+    "step": 1623
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003449360141530633,
+    "learning_rate": 1.91e-07,
+    "num_tokens": 1105834.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.674812614917755e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.812,
+    "step": 1624
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00368543085642159,
+    "learning_rate": 1.905e-07,
+    "num_tokens": 1106730.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8429999947547913,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8429999947547913,
+    "reward_std": 0.0,
+    "kl": 7.947441190481186e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8125,
+    "step": 1625
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6739558577537537,
+    "learning_rate": 1.8999999999999998e-07,
+    "num_tokens": 1107626.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843999981880188,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.843999981880188,
+    "reward_std": 0.01555635966360569,
+    "kl": 4.8667192459106445e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.813,
+    "step": 1626
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015609045512974262,
+    "learning_rate": 1.895e-07,
+    "num_tokens": 1107992.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.3981166779994965e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8135,
+    "step": 1627
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005068195168860257,
+    "learning_rate": 1.8899999999999999e-07,
+    "num_tokens": 1108358.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.7039477825164795e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.814,
+    "step": 1628
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008186335908249021,
+    "learning_rate": 1.885e-07,
+    "num_tokens": 1108724.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.4374184906482697e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8145,
+    "step": 1629
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000544139591511339,
+    "learning_rate": 1.88e-07,
+    "num_tokens": 1109090.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.124680370092392e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.815,
+    "step": 1630
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011354797752574086,
+    "learning_rate": 1.875e-07,
+    "num_tokens": 1109456.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.385636955499649e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8155,
+    "step": 1631
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1252527236938477,
+    "learning_rate": 1.87e-07,
+    "num_tokens": 1110352.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 0.00012831855565309525,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.816,
+    "step": 1632
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8676841855049133,
+    "learning_rate": 1.8649999999999998e-07,
+    "num_tokens": 1111248.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8180000185966492,
+    "rewards/environment_reward_verifier/std": 0.007071061059832573,
+    "reward": 0.8180000185966492,
+    "reward_std": 0.007071061059832573,
+    "kl": 8.204672485589981e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8165,
+    "step": 1633
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011640795273706317,
+    "learning_rate": 1.86e-07,
+    "num_tokens": 1111614.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.4091994166374207e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.817,
+    "step": 1634
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010903201764449477,
+    "learning_rate": 1.855e-07,
+    "num_tokens": 1111980.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0804814994335175e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8175,
+    "step": 1635
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5268325805664062,
+    "learning_rate": 1.85e-07,
+    "num_tokens": 1112876.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7870000004768372,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.7870000004768372,
+    "reward_std": 0.049497511237859726,
+    "kl": 0.00013242289423942566,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.818,
+    "step": 1636
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005956660490483046,
+    "learning_rate": 1.845e-07,
+    "num_tokens": 1113242.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 8.577574044466019e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8185,
+    "step": 1637
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7777119874954224,
+    "learning_rate": 1.8399999999999998e-07,
+    "num_tokens": 1114138.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 3.387313336133957e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.819,
+    "step": 1638
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005967547767795622,
+    "learning_rate": 1.835e-07,
+    "num_tokens": 1115034.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 3.451574593782425e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8195,
+    "step": 1639
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9599042534828186,
+    "learning_rate": 1.8299999999999998e-07,
+    "num_tokens": 1115930.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843500018119812,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.843500018119812,
+    "reward_std": 0.016263457015156746,
+    "kl": 4.692375659942627e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.82,
+    "step": 1640
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.7044155597686768,
+    "learning_rate": 1.825e-07,
+    "num_tokens": 1116826.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.824999988079071,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.824999988079071,
+    "reward_std": 0.011313731782138348,
+    "kl": 0.00022888649255037308,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8205,
+    "step": 1641
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.786083996295929,
+    "learning_rate": 1.82e-07,
+    "num_tokens": 1117722.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8400000333786011,
+    "rewards/environment_reward_verifier/std": 0.014142164029181004,
+    "reward": 0.8400000333786011,
+    "reward_std": 0.014142164029181004,
+    "kl": 0.00013180077075958252,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.821,
+    "step": 1642
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021554480772465467,
+    "learning_rate": 1.8149999999999998e-07,
+    "num_tokens": 1118618.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 6.999168545007706e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8215,
+    "step": 1643
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006479070289060473,
+    "learning_rate": 1.81e-07,
+    "num_tokens": 1119514.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 3.351084887981415e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.822,
+    "step": 1644
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003548029053490609,
+    "learning_rate": 1.8049999999999998e-07,
+    "num_tokens": 1120410.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 2.230145037174225e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8225,
+    "step": 1645
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004329314921051264,
+    "learning_rate": 1.8e-07,
+    "num_tokens": 1121306.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 6.543286144733429e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.823,
+    "step": 1646
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009270249865949154,
+    "learning_rate": 1.7949999999999999e-07,
+    "num_tokens": 1121672.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.204828292131424e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8235,
+    "step": 1647
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0634018182754517,
+    "learning_rate": 1.7899999999999997e-07,
+    "num_tokens": 1122568.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 8.80332663655281e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.824,
+    "step": 1648
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007692989311181009,
+    "learning_rate": 1.785e-07,
+    "num_tokens": 1122934.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0349398255348206e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8245,
+    "step": 1649
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.007314886432141066,
+    "learning_rate": 1.7799999999999998e-07,
+    "num_tokens": 1123300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.086472421884537e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.825,
+    "step": 1650
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7849677801132202,
+    "learning_rate": 1.775e-07,
+    "num_tokens": 1124196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8355000019073486,
+    "rewards/environment_reward_verifier/std": 0.0007071398431435227,
+    "reward": 0.8355000019073486,
+    "reward_std": 0.0007071398431435227,
+    "kl": 6.0978345572948456e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8255,
+    "step": 1651
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008546906756237149,
+    "learning_rate": 1.7699999999999998e-07,
+    "num_tokens": 1124562.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.7396174371242523e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.826,
+    "step": 1652
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1525259017944336,
+    "learning_rate": 1.7649999999999997e-07,
+    "num_tokens": 1125458.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 4.562176764011383e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8265,
+    "step": 1653
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0002832186291925609,
+    "learning_rate": 1.76e-07,
+    "num_tokens": 1126354.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 1.0225921869277954e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.827,
+    "step": 1654
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5804024338722229,
+    "learning_rate": 1.7549999999999998e-07,
+    "num_tokens": 1127250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.338457852602005e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8275,
+    "step": 1655
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6778073906898499,
+    "learning_rate": 1.75e-07,
+    "num_tokens": 1128146.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.290083259344101e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.828,
+    "step": 1656
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8877629637718201,
+    "learning_rate": 1.7449999999999998e-07,
+    "num_tokens": 1129042.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.609499990940094,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.609499990940094,
+    "reward_std": 0.32031938433647156,
+    "kl": 4.7820620238780975e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8285,
+    "step": 1657
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015010101487860084,
+    "learning_rate": 1.7399999999999997e-07,
+    "num_tokens": 1129408.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.316974759101868e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.829,
+    "step": 1658
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008234889828599989,
+    "learning_rate": 1.7349999999999999e-07,
+    "num_tokens": 1129774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7329660952091217e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8295,
+    "step": 1659
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008635118720121682,
+    "learning_rate": 1.7299999999999997e-07,
+    "num_tokens": 1130140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.4356489777565e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.83,
+    "step": 1660
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002669265726581216,
+    "learning_rate": 1.725e-07,
+    "num_tokens": 1130506.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.825834184885025e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8305,
+    "step": 1661
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000953994516748935,
+    "learning_rate": 1.7199999999999998e-07,
+    "num_tokens": 1131402.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.698095679283142e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.831,
+    "step": 1662
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.48069429397583,
+    "learning_rate": 1.715e-07,
+    "num_tokens": 1132298.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6019999980926514,
+    "rewards/environment_reward_verifier/std": 0.3196122944355011,
+    "reward": 0.6019999980926514,
+    "reward_std": 0.3196122944355011,
+    "kl": 5.8494508266448975e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8315,
+    "step": 1663
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005689945537596941,
+    "learning_rate": 1.71e-07,
+    "num_tokens": 1133194.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8159999847412109,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8159999847412109,
+    "reward_std": 0.0,
+    "kl": 6.105750799179077e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.832,
+    "step": 1664
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001202125335112214,
+    "learning_rate": 1.705e-07,
+    "num_tokens": 1133560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.441477358341217e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8325,
+    "step": 1665
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0032958821393549442,
+    "learning_rate": 1.7000000000000001e-07,
+    "num_tokens": 1134456.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 7.745064795017242e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.833,
+    "step": 1666
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010330155491828918,
+    "learning_rate": 1.695e-07,
+    "num_tokens": 1134822.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.7510727047920227e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8335,
+    "step": 1667
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8912146091461182,
+    "learning_rate": 1.69e-07,
+    "num_tokens": 1135718.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 6.178673356771469e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.834,
+    "step": 1668
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021134400740265846,
+    "learning_rate": 1.685e-07,
+    "num_tokens": 1136614.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 4.889722913503647e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8345,
+    "step": 1669
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008316031889989972,
+    "learning_rate": 1.68e-07,
+    "num_tokens": 1137510.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.716256469488144e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.835,
+    "step": 1670
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015585101209580898,
+    "learning_rate": 1.675e-07,
+    "num_tokens": 1137876.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.109274595975876e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8355,
+    "step": 1671
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 2.0139520168304443,
+    "learning_rate": 1.67e-07,
+    "num_tokens": 1138772.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8215000033378601,
+    "rewards/environment_reward_verifier/std": 0.0021213351283222437,
+    "reward": 0.8215000033378601,
+    "reward_std": 0.0021213351283222437,
+    "kl": 7.60052353143692e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.836,
+    "step": 1672
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0027839159592986107,
+    "learning_rate": 1.665e-07,
+    "num_tokens": 1139668.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.0001286109909415245,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8365,
+    "step": 1673
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005201384774409235,
+    "learning_rate": 1.66e-07,
+    "num_tokens": 1140564.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 2.318248152732849e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.837,
+    "step": 1674
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.770577609539032,
+    "learning_rate": 1.655e-07,
+    "num_tokens": 1141460.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8029999732971191,
+    "rewards/environment_reward_verifier/std": 0.012727884575724602,
+    "reward": 0.8029999732971191,
+    "reward_std": 0.012727884575724602,
+    "kl": 4.3759122490882874e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8375,
+    "step": 1675
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00833394005894661,
+    "learning_rate": 1.65e-07,
+    "num_tokens": 1142356.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 0.0002732565626502037,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.838,
+    "step": 1676
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025238515809178352,
+    "learning_rate": 1.645e-07,
+    "num_tokens": 1142722.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.789116352796555e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8385,
+    "step": 1677
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014516436494886875,
+    "learning_rate": 1.64e-07,
+    "num_tokens": 1143088.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0516104996204376e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.839,
+    "step": 1678
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005529244430363178,
+    "learning_rate": 1.635e-07,
+    "num_tokens": 1143984.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 0.00011143088340759277,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8395,
+    "step": 1679
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6549043655395508,
+    "learning_rate": 1.63e-07,
+    "num_tokens": 1144880.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8289999961853027,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8289999961853027,
+    "reward_std": 0.0014141954015940428,
+    "kl": 3.060977905988693e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.84,
+    "step": 1680
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004621714761015028,
+    "learning_rate": 1.625e-07,
+    "num_tokens": 1145776.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.2720545530319214e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8405,
+    "step": 1681
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9856705665588379,
+    "learning_rate": 1.62e-07,
+    "num_tokens": 1146672.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 6.997957825660706e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.841,
+    "step": 1682
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017308671958744526,
+    "learning_rate": 1.615e-07,
+    "num_tokens": 1147038.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.203019827604294e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8415,
+    "step": 1683
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009688741993159056,
+    "learning_rate": 1.61e-07,
+    "num_tokens": 1147404.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 9.158626198768616e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.842,
+    "step": 1684
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0487639904022217,
+    "learning_rate": 1.605e-07,
+    "num_tokens": 1148300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.657784640789032e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8425,
+    "step": 1685
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0018436646787449718,
+    "learning_rate": 1.6e-07,
+    "num_tokens": 1149196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 8.995365351438522e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.843,
+    "step": 1686
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003820388810709119,
+    "learning_rate": 1.595e-07,
+    "num_tokens": 1150092.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.00010778382420539856,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8435,
+    "step": 1687
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007333682733587921,
+    "learning_rate": 1.59e-07,
+    "num_tokens": 1150458.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9731000065803528e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.844,
+    "step": 1688
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.4914136528968811,
+    "learning_rate": 1.585e-07,
+    "num_tokens": 1151354.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.796999990940094,
+    "rewards/environment_reward_verifier/std": 0.01272792648524046,
+    "reward": 0.796999990940094,
+    "reward_std": 0.01272792648524046,
+    "kl": 7.97836109995842e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8445,
+    "step": 1689
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016368223587051034,
+    "learning_rate": 1.5799999999999999e-07,
+    "num_tokens": 1152250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.654525011777878e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.845,
+    "step": 1690
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020018748473376036,
+    "learning_rate": 1.575e-07,
+    "num_tokens": 1152616.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.850273787975311e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8455,
+    "step": 1691
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017474376363679767,
+    "learning_rate": 1.57e-07,
+    "num_tokens": 1152982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.674440085887909e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.846,
+    "step": 1692
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006785112200304866,
+    "learning_rate": 1.565e-07,
+    "num_tokens": 1153348.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.52649188041687e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8465,
+    "step": 1693
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8353944420814514,
+    "learning_rate": 1.56e-07,
+    "num_tokens": 1154244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 7.278099656105042e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.847,
+    "step": 1694
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7937394976615906,
+    "learning_rate": 1.5549999999999998e-07,
+    "num_tokens": 1155140.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8259999752044678,
+    "rewards/environment_reward_verifier/std": 0.01272792648524046,
+    "reward": 0.8259999752044678,
+    "reward_std": 0.01272792648524046,
+    "kl": 3.0454248189926147e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8475,
+    "step": 1695
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0003463807515799999,
+    "learning_rate": 1.55e-07,
+    "num_tokens": 1155506.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.183741450309753e-06,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.848,
+    "step": 1696
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009108221274800599,
+    "learning_rate": 1.545e-07,
+    "num_tokens": 1155872.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.233365714550018e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8485,
+    "step": 1697
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8065696954727173,
+    "learning_rate": 1.54e-07,
+    "num_tokens": 1156768.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5920000076293945,
+    "rewards/environment_reward_verifier/std": 0.30122748017311096,
+    "reward": 0.5920000076293945,
+    "reward_std": 0.30122748017311096,
+    "kl": 9.134132415056229e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.849,
+    "step": 1698
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0026033867616206408,
+    "learning_rate": 1.535e-07,
+    "num_tokens": 1157664.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8349999785423279,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8349999785423279,
+    "reward_std": 0.0,
+    "kl": 0.00015535764396190643,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8495,
+    "step": 1699
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007585044368170202,
+    "learning_rate": 1.5299999999999998e-07,
+    "num_tokens": 1158560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7849338948726654e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.85,
+    "step": 1700
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002312328899279237,
+    "learning_rate": 1.525e-07,
+    "num_tokens": 1158926.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.916893810033798e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8505,
+    "step": 1701
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00042824094998650253,
+    "learning_rate": 1.5199999999999998e-07,
+    "num_tokens": 1159822.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.4728477001190186e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.851,
+    "step": 1702
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008439371013082564,
+    "learning_rate": 1.515e-07,
+    "num_tokens": 1160718.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 4.475284367799759e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8515,
+    "step": 1703
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011333145666867495,
+    "learning_rate": 1.51e-07,
+    "num_tokens": 1161084.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.541726619005203e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.852,
+    "step": 1704
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006239201175048947,
+    "learning_rate": 1.5049999999999998e-07,
+    "num_tokens": 1161980.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 2.501765266060829e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8525,
+    "step": 1705
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005729427561163902,
+    "learning_rate": 1.5e-07,
+    "num_tokens": 1162346.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 0.00014315079897642136,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.853,
+    "step": 1706
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006242716335691512,
+    "learning_rate": 1.4949999999999998e-07,
+    "num_tokens": 1162712.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.430751919746399e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8535,
+    "step": 1707
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8198180794715881,
+    "learning_rate": 1.49e-07,
+    "num_tokens": 1163608.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 7.086340337991714e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.854,
+    "step": 1708
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9060729146003723,
+    "learning_rate": 1.4849999999999999e-07,
+    "num_tokens": 1164504.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 4.623178392648697e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8545,
+    "step": 1709
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7695682644844055,
+    "learning_rate": 1.4799999999999998e-07,
+    "num_tokens": 1165400.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 7.752608507871628e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.855,
+    "step": 1710
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0271371603012085,
+    "learning_rate": 1.475e-07,
+    "num_tokens": 1166296.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.843500018119812,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.843500018119812,
+    "reward_std": 0.016263457015156746,
+    "kl": 4.950445145368576e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8555,
+    "step": 1711
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006063416949473321,
+    "learning_rate": 1.4699999999999998e-07,
+    "num_tokens": 1167192.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.437325358390808e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.856,
+    "step": 1712
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001116525148972869,
+    "learning_rate": 1.465e-07,
+    "num_tokens": 1167558.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.72264364361763e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8565,
+    "step": 1713
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012593928258866072,
+    "learning_rate": 1.4599999999999998e-07,
+    "num_tokens": 1167924.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.567353218793869e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.857,
+    "step": 1714
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7782901525497437,
+    "learning_rate": 1.4549999999999997e-07,
+    "num_tokens": 1168820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 5.462951958179474e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8575,
+    "step": 1715
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002288342686370015,
+    "learning_rate": 1.45e-07,
+    "num_tokens": 1169716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 8.028000593185425e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.858,
+    "step": 1716
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010321326553821564,
+    "learning_rate": 1.4449999999999998e-07,
+    "num_tokens": 1170612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8140000104904175,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8140000104904175,
+    "reward_std": 0.0,
+    "kl": 4.060007631778717e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8585,
+    "step": 1717
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7346194386482239,
+    "learning_rate": 1.44e-07,
+    "num_tokens": 1171508.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 2.4116598069667816e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.859,
+    "step": 1718
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014648967189714313,
+    "learning_rate": 1.4349999999999998e-07,
+    "num_tokens": 1172404.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 4.110205918550491e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8595,
+    "step": 1719
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004332505166530609,
+    "learning_rate": 1.4299999999999997e-07,
+    "num_tokens": 1173300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.0547532737255096e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.86,
+    "step": 1720
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006606621900573373,
+    "learning_rate": 1.4249999999999999e-07,
+    "num_tokens": 1174196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 2.1940097212791443e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8605,
+    "step": 1721
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0031862056348472834,
+    "learning_rate": 1.4199999999999997e-07,
+    "num_tokens": 1175092.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8230000138282776,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8230000138282776,
+    "reward_std": 0.0,
+    "kl": 5.89834526181221e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.861,
+    "step": 1722
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000561385415494442,
+    "learning_rate": 1.415e-07,
+    "num_tokens": 1175458.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.7856789529323578e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8615,
+    "step": 1723
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8007268905639648,
+    "learning_rate": 1.4099999999999998e-07,
+    "num_tokens": 1176354.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31607675552368164,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31607675552368164,
+    "kl": 8.418131619691849e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.862,
+    "step": 1724
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013896668097004294,
+    "learning_rate": 1.4050000000000002e-07,
+    "num_tokens": 1176720.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7703121304512024e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8625,
+    "step": 1725
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015918755671009421,
+    "learning_rate": 1.4e-07,
+    "num_tokens": 1177616.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.09386882185936e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.863,
+    "step": 1726
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008370818104594946,
+    "learning_rate": 1.395e-07,
+    "num_tokens": 1177982.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.082266241312027e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8635,
+    "step": 1727
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001225637854076922,
+    "learning_rate": 1.3900000000000001e-07,
+    "num_tokens": 1178878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8059999942779541,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8059999942779541,
+    "reward_std": 0.0,
+    "kl": 4.492839798331261e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.864,
+    "step": 1728
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013102650409564376,
+    "learning_rate": 1.385e-07,
+    "num_tokens": 1179774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8569999933242798,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8569999933242798,
+    "reward_std": 0.0,
+    "kl": 6.482191383838654e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8645,
+    "step": 1729
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9065403938293457,
+    "learning_rate": 1.3800000000000002e-07,
+    "num_tokens": 1180670.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5900000333786011,
+    "rewards/environment_reward_verifier/std": 0.29698485136032104,
+    "reward": 0.5900000333786011,
+    "reward_std": 0.29698485136032104,
+    "kl": 8.664838969707489e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.865,
+    "step": 1730
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009610215201973915,
+    "learning_rate": 1.375e-07,
+    "num_tokens": 1181036.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.251021891832352e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8655,
+    "step": 1731
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009383897413499653,
+    "learning_rate": 1.37e-07,
+    "num_tokens": 1181932.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6188790798187256e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.866,
+    "step": 1732
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013004555366933346,
+    "learning_rate": 1.365e-07,
+    "num_tokens": 1182828.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.170105189085007e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8665,
+    "step": 1733
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008560972637496889,
+    "learning_rate": 1.36e-07,
+    "num_tokens": 1183194.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.3237429559230804e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.867,
+    "step": 1734
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000858226849231869,
+    "learning_rate": 1.3550000000000002e-07,
+    "num_tokens": 1183560.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.406591713428497e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8675,
+    "step": 1735
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009745972929522395,
+    "learning_rate": 1.35e-07,
+    "num_tokens": 1183926.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2455118596553802e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.868,
+    "step": 1736
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001205791486427188,
+    "learning_rate": 1.345e-07,
+    "num_tokens": 1184292.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.4463202357292175e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8685,
+    "step": 1737
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000825030030682683,
+    "learning_rate": 1.34e-07,
+    "num_tokens": 1185188.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.240443766117096e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.869,
+    "step": 1738
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009022785816341639,
+    "learning_rate": 1.335e-07,
+    "num_tokens": 1185554.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7677975594997406e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8695,
+    "step": 1739
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007139133522287011,
+    "learning_rate": 1.33e-07,
+    "num_tokens": 1185920.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8228387236595154e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.87,
+    "step": 1740
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6013137698173523,
+    "learning_rate": 1.325e-07,
+    "num_tokens": 1186816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.251821130514145e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8705,
+    "step": 1741
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.030862808227539,
+    "learning_rate": 1.32e-07,
+    "num_tokens": 1187712.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00021289847791194916,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.871,
+    "step": 1742
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.402322381734848,
+    "learning_rate": 1.315e-07,
+    "num_tokens": 1188608.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 1.122988760471344e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8715,
+    "step": 1743
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8741965293884277,
+    "learning_rate": 1.31e-07,
+    "num_tokens": 1189504.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7860000133514404,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7860000133514404,
+    "reward_std": 0.04808327555656433,
+    "kl": 6.223050877451897e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.872,
+    "step": 1744
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013798903673887253,
+    "learning_rate": 1.305e-07,
+    "num_tokens": 1189870.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.7256238758563995e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8725,
+    "step": 1745
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009432470542378724,
+    "learning_rate": 1.3e-07,
+    "num_tokens": 1190236.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.60291451215744e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.873,
+    "step": 1746
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011539016850292683,
+    "learning_rate": 1.295e-07,
+    "num_tokens": 1190602.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.1274895668029785e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8735,
+    "step": 1747
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001130102900788188,
+    "learning_rate": 1.29e-07,
+    "num_tokens": 1190968.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.297176539897919e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.874,
+    "step": 1748
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9825541377067566,
+    "learning_rate": 1.285e-07,
+    "num_tokens": 1191864.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 0.00011297408491373062,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8745,
+    "step": 1749
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009724145638756454,
+    "learning_rate": 1.28e-07,
+    "num_tokens": 1192230.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.585498780012131e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.875,
+    "step": 1750
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.744745135307312,
+    "learning_rate": 1.275e-07,
+    "num_tokens": 1193126.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8314999938011169,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8314999938011169,
+    "reward_std": 0.016263457015156746,
+    "kl": 4.145503044128418e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8755,
+    "step": 1751
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012472629314288497,
+    "learning_rate": 1.2699999999999999e-07,
+    "num_tokens": 1194022.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.692748188972473e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.876,
+    "step": 1752
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012303896946832538,
+    "learning_rate": 1.265e-07,
+    "num_tokens": 1194918.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.751832991838455e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8765,
+    "step": 1753
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0018947335192933679,
+    "learning_rate": 1.26e-07,
+    "num_tokens": 1195814.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 0.00010034628212451935,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.877,
+    "step": 1754
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010893162107095122,
+    "learning_rate": 1.255e-07,
+    "num_tokens": 1196180.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.170819789171219e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8775,
+    "step": 1755
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9734063148498535,
+    "learning_rate": 1.25e-07,
+    "num_tokens": 1197076.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00011194124817848206,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.878,
+    "step": 1756
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008023467962630093,
+    "learning_rate": 1.2449999999999998e-07,
+    "num_tokens": 1197972.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 5.610659718513489e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8785,
+    "step": 1757
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008229869999922812,
+    "learning_rate": 1.24e-07,
+    "num_tokens": 1198338.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.3774802684783936e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.879,
+    "step": 1758
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7385565638542175,
+    "learning_rate": 1.235e-07,
+    "num_tokens": 1199234.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 5.881208926439285e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8795,
+    "step": 1759
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003982287831604481,
+    "learning_rate": 1.23e-07,
+    "num_tokens": 1199600.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.9475190937519073e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.88,
+    "step": 1760
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010875341249629855,
+    "learning_rate": 1.225e-07,
+    "num_tokens": 1199966.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.367716610431671e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8805,
+    "step": 1761
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.948522686958313,
+    "learning_rate": 1.2199999999999998e-07,
+    "num_tokens": 1200862.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 4.6215951442718506e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.881,
+    "step": 1762
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7658970355987549,
+    "learning_rate": 1.215e-07,
+    "num_tokens": 1201758.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.03111271932721138,
+    "reward": 0.828000009059906,
+    "reward_std": 0.03111271932721138,
+    "kl": 4.916219040751457e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8815,
+    "step": 1763
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008914874633774161,
+    "learning_rate": 1.2099999999999998e-07,
+    "num_tokens": 1202654.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.2026710212230682e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.882,
+    "step": 1764
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5070701837539673,
+    "learning_rate": 1.205e-07,
+    "num_tokens": 1203550.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8335000276565552,
+    "rewards/environment_reward_verifier/std": 0.030405621975660324,
+    "reward": 0.8335000276565552,
+    "reward_std": 0.030405621975660324,
+    "kl": 7.315631955862045e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8825,
+    "step": 1765
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008635977865196764,
+    "learning_rate": 1.2e-07,
+    "num_tokens": 1203916.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9083341360092163e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.883,
+    "step": 1766
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.9672502279281616,
+    "learning_rate": 1.1949999999999998e-07,
+    "num_tokens": 1204812.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8209999799728394,
+    "rewards/environment_reward_verifier/std": 0.0014142375439405441,
+    "reward": 0.8209999799728394,
+    "reward_std": 0.0014142375439405441,
+    "kl": 7.252860814332962e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8835,
+    "step": 1767
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015731449238955975,
+    "learning_rate": 1.19e-07,
+    "num_tokens": 1205178.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.626065492630005e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.884,
+    "step": 1768
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006920692976564169,
+    "learning_rate": 1.1849999999999998e-07,
+    "num_tokens": 1206074.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 0.00015255529433488846,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8845,
+    "step": 1769
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6253349781036377,
+    "learning_rate": 1.1799999999999998e-07,
+    "num_tokens": 1206970.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8255000114440918,
+    "rewards/environment_reward_verifier/std": 0.0035355305299162865,
+    "reward": 0.8255000114440918,
+    "reward_std": 0.0035355305299162865,
+    "kl": 9.524449706077576e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.885,
+    "step": 1770
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009710108279250562,
+    "learning_rate": 1.1749999999999999e-07,
+    "num_tokens": 1207336.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.65767627954483e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8855,
+    "step": 1771
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0021219495683908463,
+    "learning_rate": 1.17e-07,
+    "num_tokens": 1208232.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 5.154218524694443e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.886,
+    "step": 1772
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8564634919166565,
+    "learning_rate": 1.165e-07,
+    "num_tokens": 1209128.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8289999961853027,
+    "rewards/environment_reward_verifier/std": 0.0014141954015940428,
+    "reward": 0.8289999961853027,
+    "reward_std": 0.0014141954015940428,
+    "kl": 5.968846380710602e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8865,
+    "step": 1773
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014013515319675207,
+    "learning_rate": 1.16e-07,
+    "num_tokens": 1209494.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.6672536730766296e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.887,
+    "step": 1774
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010544674005359411,
+    "learning_rate": 1.155e-07,
+    "num_tokens": 1209860.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.4714117646217346e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8875,
+    "step": 1775
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015696323243901134,
+    "learning_rate": 1.15e-07,
+    "num_tokens": 1210226.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.527772009372711e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.888,
+    "step": 1776
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011540880659595132,
+    "learning_rate": 1.145e-07,
+    "num_tokens": 1210592.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.215724766254425e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8885,
+    "step": 1777
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.7192362546920776,
+    "learning_rate": 1.14e-07,
+    "num_tokens": 1211488.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8009999990463257,
+    "rewards/environment_reward_verifier/std": 0.049497511237859726,
+    "reward": 0.8009999990463257,
+    "reward_std": 0.049497511237859726,
+    "kl": 0.0004497366026043892,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.889,
+    "step": 1778
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7114416360855103,
+    "learning_rate": 1.135e-07,
+    "num_tokens": 1212384.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 4.327204078435898e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8895,
+    "step": 1779
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0030834779608994722,
+    "learning_rate": 1.1299999999999999e-07,
+    "num_tokens": 1213280.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.382999986410141,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.382999986410141,
+    "reward_std": 0.0,
+    "kl": 3.078300505876541e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.89,
+    "step": 1780
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007834673160687089,
+    "learning_rate": 1.125e-07,
+    "num_tokens": 1214176.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.3746473491191864e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8905,
+    "step": 1781
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013525994727388024,
+    "learning_rate": 1.12e-07,
+    "num_tokens": 1214542.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.968086093664169e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.891,
+    "step": 1782
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007439209730364382,
+    "learning_rate": 1.115e-07,
+    "num_tokens": 1214908.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.4460256099700928e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8915,
+    "step": 1783
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005045488942414522,
+    "learning_rate": 1.11e-07,
+    "num_tokens": 1215274.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.132945418357849e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.892,
+    "step": 1784
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.009108408354222775,
+    "learning_rate": 1.1049999999999999e-07,
+    "num_tokens": 1216170.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8429999947547913,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8429999947547913,
+    "reward_std": 0.0,
+    "kl": 0.00012882612645626068,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8925,
+    "step": 1785
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005773335578851402,
+    "learning_rate": 1.0999999999999999e-07,
+    "num_tokens": 1216536.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.445746213197708e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.893,
+    "step": 1786
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007551417802460492,
+    "learning_rate": 1.095e-07,
+    "num_tokens": 1216902.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.5650875866413116e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8935,
+    "step": 1787
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7837104797363281,
+    "learning_rate": 1.09e-07,
+    "num_tokens": 1217798.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 3.842916339635849e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.894,
+    "step": 1788
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007525270921178162,
+    "learning_rate": 1.085e-07,
+    "num_tokens": 1218164.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.5322271287441254e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8945,
+    "step": 1789
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013598490040749311,
+    "learning_rate": 1.0799999999999999e-07,
+    "num_tokens": 1219060.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.739143282175064e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.895,
+    "step": 1790
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00262662535533309,
+    "learning_rate": 1.0749999999999999e-07,
+    "num_tokens": 1219956.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 0.00010076910257339478,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8955,
+    "step": 1791
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013126698322594166,
+    "learning_rate": 1.0699999999999999e-07,
+    "num_tokens": 1220322.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.7869980335235596e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.896,
+    "step": 1792
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001081117196008563,
+    "learning_rate": 1.065e-07,
+    "num_tokens": 1221218.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8569999933242798,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8569999933242798,
+    "reward_std": 0.0,
+    "kl": 2.1208077669143677e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8965,
+    "step": 1793
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000714861205779016,
+    "learning_rate": 1.06e-07,
+    "num_tokens": 1221584.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.1541491150856018e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.897,
+    "step": 1794
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7797353267669678,
+    "learning_rate": 1.0549999999999999e-07,
+    "num_tokens": 1222480.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 6.227241829037666e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8975,
+    "step": 1795
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013363354373723269,
+    "learning_rate": 1.0499999999999999e-07,
+    "num_tokens": 1222846.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.7909095883369446e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.898,
+    "step": 1796
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006508568301796913,
+    "learning_rate": 1.0449999999999999e-07,
+    "num_tokens": 1223212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 9.324029088020325e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8985,
+    "step": 1797
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008671290124766529,
+    "learning_rate": 1.0399999999999999e-07,
+    "num_tokens": 1223578.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7660280466079712e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.899,
+    "step": 1798
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7294493913650513,
+    "learning_rate": 1.035e-07,
+    "num_tokens": 1224474.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 0.0001232502982020378,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.8995,
+    "step": 1799
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6453281044960022,
+    "learning_rate": 1.03e-07,
+    "num_tokens": 1225370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 5.937553942203522e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9,
+    "step": 1800
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010641550179570913,
+    "learning_rate": 1.0249999999999998e-07,
+    "num_tokens": 1225736.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.911050200462341e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9005,
+    "step": 1801
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8502619862556458,
+    "learning_rate": 1.0199999999999999e-07,
+    "num_tokens": 1226632.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5744999647140503,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5744999647140503,
+    "reward_std": 0.27082186937332153,
+    "kl": 7.08606094121933e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.901,
+    "step": 1802
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008172534871846437,
+    "learning_rate": 1.015e-07,
+    "num_tokens": 1226998.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.078486770391464e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9015,
+    "step": 1803
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015257395571097732,
+    "learning_rate": 1.01e-07,
+    "num_tokens": 1227894.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.626507431268692e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.902,
+    "step": 1804
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9941185712814331,
+    "learning_rate": 1.005e-07,
+    "num_tokens": 1228790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.308430314064026e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9025,
+    "step": 1805
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8335599303245544,
+    "learning_rate": 1e-07,
+    "num_tokens": 1229686.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 4.629790782928467e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.903,
+    "step": 1806
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008063720306381583,
+    "learning_rate": 9.95e-08,
+    "num_tokens": 1230582.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.995094448328018e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9035,
+    "step": 1807
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0029422007501125336,
+    "learning_rate": 9.9e-08,
+    "num_tokens": 1230948.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.519561141729355e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.904,
+    "step": 1808
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010091759031638503,
+    "learning_rate": 9.85e-08,
+    "num_tokens": 1231314.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.390440881252289e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9045,
+    "step": 1809
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6486821174621582,
+    "learning_rate": 9.8e-08,
+    "num_tokens": 1232210.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 4.920735955238342e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.905,
+    "step": 1810
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007820340106263757,
+    "learning_rate": 9.749999999999999e-08,
+    "num_tokens": 1232576.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.247987478971481e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9055,
+    "step": 1811
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016294894739985466,
+    "learning_rate": 9.7e-08,
+    "num_tokens": 1232942.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.51929697394371e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.906,
+    "step": 1812
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9986032843589783,
+    "learning_rate": 9.65e-08,
+    "num_tokens": 1233838.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 9.219348430633545e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9065,
+    "step": 1813
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.9711169004440308,
+    "learning_rate": 9.6e-08,
+    "num_tokens": 1234734.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5674999952316284,
+    "rewards/environment_reward_verifier/std": 0.2708218991756439,
+    "reward": 0.5674999952316284,
+    "reward_std": 0.2708218991756439,
+    "kl": 0.00017576105892658234,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.907,
+    "step": 1814
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6360597014427185,
+    "learning_rate": 9.55e-08,
+    "num_tokens": 1235630.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 7.921271026134491e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9075,
+    "step": 1815
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6892108917236328,
+    "learning_rate": 9.499999999999999e-08,
+    "num_tokens": 1236526.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7860000133514404,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7860000133514404,
+    "reward_std": 0.04808327555656433,
+    "kl": 6.624776870012283e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.908,
+    "step": 1816
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017434032633900642,
+    "learning_rate": 9.449999999999999e-08,
+    "num_tokens": 1236892.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.3535994589328766e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9085,
+    "step": 1817
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0027986906934529543,
+    "learning_rate": 9.4e-08,
+    "num_tokens": 1237788.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8230000138282776,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8230000138282776,
+    "reward_std": 0.0,
+    "kl": 5.122460424900055e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.909,
+    "step": 1818
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008996524848043919,
+    "learning_rate": 9.35e-08,
+    "num_tokens": 1238154.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.3515505492687225e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9095,
+    "step": 1819
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.007405710872262716,
+    "learning_rate": 9.3e-08,
+    "num_tokens": 1239050.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8550000190734863,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8550000190734863,
+    "reward_std": 0.0,
+    "kl": 0.00010426249355077744,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.91,
+    "step": 1820
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013169284211471677,
+    "learning_rate": 9.25e-08,
+    "num_tokens": 1239416.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.415547639131546e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9105,
+    "step": 1821
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8002967834472656,
+    "learning_rate": 9.199999999999999e-08,
+    "num_tokens": 1240312.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 8.742976933717728e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.911,
+    "step": 1822
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8729252219200134,
+    "learning_rate": 9.149999999999999e-08,
+    "num_tokens": 1241208.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 7.083360105752945e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9115,
+    "step": 1823
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00195197737775743,
+    "learning_rate": 9.1e-08,
+    "num_tokens": 1241574.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.8969178199768066e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.912,
+    "step": 1824
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015553674893453717,
+    "learning_rate": 9.05e-08,
+    "num_tokens": 1241940.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.8057717978954315e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9125,
+    "step": 1825
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008191480301320553,
+    "learning_rate": 9e-08,
+    "num_tokens": 1242306.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3916363716125488e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.913,
+    "step": 1826
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2573457956314087,
+    "learning_rate": 8.949999999999999e-08,
+    "num_tokens": 1243202.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 6.231758743524551e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9135,
+    "step": 1827
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012659374624490738,
+    "learning_rate": 8.899999999999999e-08,
+    "num_tokens": 1243568.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.623776137828827e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.914,
+    "step": 1828
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2384027242660522,
+    "learning_rate": 8.849999999999999e-08,
+    "num_tokens": 1244464.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8179999589920044,
+    "rewards/environment_reward_verifier/std": 0.01697055622935295,
+    "reward": 0.8179999589920044,
+    "reward_std": 0.01697055622935295,
+    "kl": 4.41037118434906e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9145,
+    "step": 1829
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020049409940838814,
+    "learning_rate": 8.8e-08,
+    "num_tokens": 1245360.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 9.782146662473679e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.915,
+    "step": 1830
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007200397667475045,
+    "learning_rate": 8.75e-08,
+    "num_tokens": 1245726.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8675422072410583e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9155,
+    "step": 1831
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0017381110228598118,
+    "learning_rate": 8.699999999999998e-08,
+    "num_tokens": 1246092.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.093511521816254e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.916,
+    "step": 1832
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.057037509977817535,
+    "learning_rate": 8.649999999999999e-08,
+    "num_tokens": 1246988.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.0009416723623871803,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9165,
+    "step": 1833
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002384243067353964,
+    "learning_rate": 8.599999999999999e-08,
+    "num_tokens": 1247354.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.830638110637665e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.917,
+    "step": 1834
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001272529480047524,
+    "learning_rate": 8.55e-08,
+    "num_tokens": 1247720.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.187637776136398e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9175,
+    "step": 1835
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014147718902677298,
+    "learning_rate": 8.500000000000001e-08,
+    "num_tokens": 1248086.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.632266402244568e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.918,
+    "step": 1836
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008189683430828154,
+    "learning_rate": 8.45e-08,
+    "num_tokens": 1248452.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8110109269618988e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9185,
+    "step": 1837
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006520377937704325,
+    "learning_rate": 8.4e-08,
+    "num_tokens": 1249348.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.2736919820308685e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.919,
+    "step": 1838
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005913342465646565,
+    "learning_rate": 8.35e-08,
+    "num_tokens": 1250244.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.8070993721485138e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9195,
+    "step": 1839
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.006336219143122435,
+    "learning_rate": 8.3e-08,
+    "num_tokens": 1250610.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.033239722251892e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.92,
+    "step": 1840
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.074285626411438,
+    "learning_rate": 8.25e-08,
+    "num_tokens": 1251506.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8105000257492065,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8105000257492065,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.837980329990387e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9205,
+    "step": 1841
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001576212584041059,
+    "learning_rate": 8.2e-08,
+    "num_tokens": 1251872.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.595518112182617e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.921,
+    "step": 1842
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0022003604099154472,
+    "learning_rate": 8.15e-08,
+    "num_tokens": 1252238.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.256384611129761e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9215,
+    "step": 1843
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9301549196243286,
+    "learning_rate": 8.1e-08,
+    "num_tokens": 1253134.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 5.9351325035095215e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.922,
+    "step": 1844
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.012174203991889954,
+    "learning_rate": 8.05e-08,
+    "num_tokens": 1254030.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 3.597419708967209e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9225,
+    "step": 1845
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7200810313224792,
+    "learning_rate": 8e-08,
+    "num_tokens": 1254926.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.89833003282547e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.923,
+    "step": 1846
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003318098606541753,
+    "learning_rate": 7.95e-08,
+    "num_tokens": 1255292.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9474496841430664e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9235,
+    "step": 1847
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002200285904109478,
+    "learning_rate": 7.899999999999999e-08,
+    "num_tokens": 1255658.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 5.21903857588768e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.924,
+    "step": 1848
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008765140664763749,
+    "learning_rate": 7.85e-08,
+    "num_tokens": 1256024.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.9000995457172394e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9245,
+    "step": 1849
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8187151551246643,
+    "learning_rate": 7.8e-08,
+    "num_tokens": 1256920.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 7.206853479146957e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.925,
+    "step": 1850
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5915341973304749,
+    "learning_rate": 7.75e-08,
+    "num_tokens": 1257816.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 3.796163946390152e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9255,
+    "step": 1851
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7493903040885925,
+    "learning_rate": 7.7e-08,
+    "num_tokens": 1258712.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 3.951508551836014e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.926,
+    "step": 1852
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008260611211881042,
+    "learning_rate": 7.649999999999999e-08,
+    "num_tokens": 1259608.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7519999742507935,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7519999742507935,
+    "reward_std": 0.0,
+    "kl": 4.204269498586655e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9265,
+    "step": 1853
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001288191182538867,
+    "learning_rate": 7.599999999999999e-08,
+    "num_tokens": 1259974.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.305131733417511e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.927,
+    "step": 1854
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6523440480232239,
+    "learning_rate": 7.55e-08,
+    "num_tokens": 1260870.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 2.2289343178272247e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9275,
+    "step": 1855
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0025584432296454906,
+    "learning_rate": 7.5e-08,
+    "num_tokens": 1261766.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00012008380144834518,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.928,
+    "step": 1856
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008006390416994691,
+    "learning_rate": 7.45e-08,
+    "num_tokens": 1262662.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.365908145904541e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9285,
+    "step": 1857
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005818059435114264,
+    "learning_rate": 7.399999999999999e-08,
+    "num_tokens": 1263028.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.6983598470687866e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.929,
+    "step": 1858
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016558809438720345,
+    "learning_rate": 7.349999999999999e-08,
+    "num_tokens": 1263394.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.0668994188308716e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9295,
+    "step": 1859
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012347043957561255,
+    "learning_rate": 7.299999999999999e-08,
+    "num_tokens": 1263760.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.45969232916832e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.93,
+    "step": 1860
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007524865795858204,
+    "learning_rate": 7.25e-08,
+    "num_tokens": 1264126.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.5850720703601837e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9305,
+    "step": 1861
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6033291816711426,
+    "learning_rate": 7.2e-08,
+    "num_tokens": 1265022.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 5.55114820599556e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.931,
+    "step": 1862
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0034811405930668116,
+    "learning_rate": 7.149999999999999e-08,
+    "num_tokens": 1265918.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.800000011920929,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.800000011920929,
+    "reward_std": 0.0,
+    "kl": 0.00012871157377958298,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9315,
+    "step": 1863
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007591163157485425,
+    "learning_rate": 7.099999999999999e-08,
+    "num_tokens": 1266284.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.487244248390198e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.932,
+    "step": 1864
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011568117188289762,
+    "learning_rate": 7.049999999999999e-08,
+    "num_tokens": 1266650.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.824755549430847e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9325,
+    "step": 1865
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7718785405158997,
+    "learning_rate": 7e-08,
+    "num_tokens": 1267546.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.01555635966360569,
+    "kl": 2.6744790375232697e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.933,
+    "step": 1866
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7953295111656189,
+    "learning_rate": 6.950000000000001e-08,
+    "num_tokens": 1268442.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 5.66607341170311e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9335,
+    "step": 1867
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007461290806531906,
+    "learning_rate": 6.900000000000001e-08,
+    "num_tokens": 1268808.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.156198024749756e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.934,
+    "step": 1868
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014013278996571898,
+    "learning_rate": 6.85e-08,
+    "num_tokens": 1269704.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 5.7250261306762695e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9345,
+    "step": 1869
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008100003469735384,
+    "learning_rate": 6.8e-08,
+    "num_tokens": 1270070.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.2807158529758453e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.935,
+    "step": 1870
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006804454606026411,
+    "learning_rate": 6.75e-08,
+    "num_tokens": 1270436.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.0500272512435913e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9355,
+    "step": 1871
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013419273309409618,
+    "learning_rate": 6.7e-08,
+    "num_tokens": 1271332.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 7.026456296443939e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.936,
+    "step": 1872
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0018655994208529592,
+    "learning_rate": 6.65e-08,
+    "num_tokens": 1272228.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.878000020980835,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.878000020980835,
+    "reward_std": 0.0,
+    "kl": 8.473079651594162e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9365,
+    "step": 1873
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008008715230971575,
+    "learning_rate": 6.6e-08,
+    "num_tokens": 1273124.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.729015588760376e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.937,
+    "step": 1874
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9609123468399048,
+    "learning_rate": 6.55e-08,
+    "num_tokens": 1274020.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.089848905801773e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9375,
+    "step": 1875
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.8508756160736084,
+    "learning_rate": 6.5e-08,
+    "num_tokens": 1274916.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 8.919928222894669e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.938,
+    "step": 1876
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001092518912628293,
+    "learning_rate": 6.45e-08,
+    "num_tokens": 1275282.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.985315561294556e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9385,
+    "step": 1877
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012667548144236207,
+    "learning_rate": 6.4e-08,
+    "num_tokens": 1276178.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8320000171661377,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8320000171661377,
+    "reward_std": 0.0,
+    "kl": 4.560593515634537e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.939,
+    "step": 1878
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012132265837863088,
+    "learning_rate": 6.349999999999999e-08,
+    "num_tokens": 1277074.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8199999928474426,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8199999928474426,
+    "reward_std": 0.0,
+    "kl": 6.347894668579102e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9395,
+    "step": 1879
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6250314712524414,
+    "learning_rate": 6.3e-08,
+    "num_tokens": 1277970.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 4.879012703895569e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.94,
+    "step": 1880
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009681034134700894,
+    "learning_rate": 6.25e-08,
+    "num_tokens": 1278336.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.729907959699631e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9405,
+    "step": 1881
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011230476666241884,
+    "learning_rate": 6.2e-08,
+    "num_tokens": 1278702.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.889536648988724e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.941,
+    "step": 1882
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0014930960023775697,
+    "learning_rate": 6.15e-08,
+    "num_tokens": 1279598.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 4.818663001060486e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9415,
+    "step": 1883
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7510735392570496,
+    "learning_rate": 6.099999999999999e-08,
+    "num_tokens": 1280494.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.274491220712662e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.942,
+    "step": 1884
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020160400308668613,
+    "learning_rate": 6.049999999999999e-08,
+    "num_tokens": 1280860.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.4088658392429352e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9425,
+    "step": 1885
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010629004100337625,
+    "learning_rate": 6e-08,
+    "num_tokens": 1281756.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8569999933242798,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8569999933242798,
+    "reward_std": 0.0,
+    "kl": 5.9262849390506744e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.943,
+    "step": 1886
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.004243387375026941,
+    "learning_rate": 5.95e-08,
+    "num_tokens": 1282652.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00011902675032615662,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9435,
+    "step": 1887
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.774765729904175,
+    "learning_rate": 5.899999999999999e-08,
+    "num_tokens": 1283548.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 0.00014576036483049393,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.944,
+    "step": 1888
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6654500961303711,
+    "learning_rate": 5.85e-08,
+    "num_tokens": 1284444.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7910000085830688,
+    "rewards/environment_reward_verifier/std": 0.045254841446876526,
+    "reward": 0.7910000085830688,
+    "reward_std": 0.045254841446876526,
+    "kl": 6.612855941057205e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9445,
+    "step": 1889
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8191606402397156,
+    "learning_rate": 5.8e-08,
+    "num_tokens": 1285340.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8125,
+    "rewards/environment_reward_verifier/std": 0.01060659158974886,
+    "reward": 0.8125,
+    "reward_std": 0.01060659158974886,
+    "kl": 3.25273722410202e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.945,
+    "step": 1890
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7108575701713562,
+    "learning_rate": 5.75e-08,
+    "num_tokens": 1286236.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8209999799728394,
+    "rewards/environment_reward_verifier/std": 0.0014142375439405441,
+    "reward": 0.8209999799728394,
+    "reward_std": 0.0014142375439405441,
+    "kl": 7.600896060466766e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9455,
+    "step": 1891
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0004424000799190253,
+    "learning_rate": 5.7e-08,
+    "num_tokens": 1287132.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 2.8070993721485138e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.946,
+    "step": 1892
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9523747563362122,
+    "learning_rate": 5.6499999999999996e-08,
+    "num_tokens": 1288028.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00021653249859809875,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9465,
+    "step": 1893
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.4174977540969849,
+    "learning_rate": 5.6e-08,
+    "num_tokens": 1288924.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8114999532699585,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8114999532699585,
+    "reward_std": 0.06434673070907593,
+    "kl": 4.808790981769562e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.947,
+    "step": 1894
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9478350281715393,
+    "learning_rate": 5.55e-08,
+    "num_tokens": 1289820.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5985000133514404,
+    "rewards/environment_reward_verifier/std": 0.30900564789772034,
+    "reward": 0.5985000133514404,
+    "reward_std": 0.30900564789772034,
+    "kl": 8.906051516532898e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9475,
+    "step": 1895
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007437904132530093,
+    "learning_rate": 5.4999999999999996e-08,
+    "num_tokens": 1290716.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8230000138282776,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8230000138282776,
+    "reward_std": 0.0,
+    "kl": 4.428718239068985e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.948,
+    "step": 1896
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7563509941101074,
+    "learning_rate": 5.45e-08,
+    "num_tokens": 1291612.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 4.9046240746974945e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9485,
+    "step": 1897
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8800461888313293,
+    "learning_rate": 5.3999999999999994e-08,
+    "num_tokens": 1292508.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8114999532699585,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.8114999532699585,
+    "reward_std": 0.06434673070907593,
+    "kl": 8.416082710027695e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.949,
+    "step": 1898
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013233114732429385,
+    "learning_rate": 5.3499999999999996e-08,
+    "num_tokens": 1293404.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.27078115940094e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9495,
+    "step": 1899
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006829975172877312,
+    "learning_rate": 5.3e-08,
+    "num_tokens": 1294300.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.519522190093994e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.95,
+    "step": 1900
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8179243206977844,
+    "learning_rate": 5.2499999999999994e-08,
+    "num_tokens": 1295196.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 6.653927266597748e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9505,
+    "step": 1901
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00887332670390606,
+    "learning_rate": 5.1999999999999996e-08,
+    "num_tokens": 1296092.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7649999856948853,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7649999856948853,
+    "reward_std": 0.0,
+    "kl": 0.00018446799367666245,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.951,
+    "step": 1902
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7098538279533386,
+    "learning_rate": 5.15e-08,
+    "num_tokens": 1296988.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.0236860513687134e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9515,
+    "step": 1903
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009045878541655838,
+    "learning_rate": 5.0999999999999993e-08,
+    "num_tokens": 1297354.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.9223039746284485e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.952,
+    "step": 1904
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002537330612540245,
+    "learning_rate": 5.05e-08,
+    "num_tokens": 1298250.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 7.463432848453522e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9525,
+    "step": 1905
+  },
+  {
+    "loss": -0.0,
+    "grad_norm": 0.7880844473838806,
+    "learning_rate": 5e-08,
+    "num_tokens": 1299146.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8324999809265137,
+    "rewards/environment_reward_verifier/std": 0.0007070976425893605,
+    "reward": 0.8324999809265137,
+    "reward_std": 0.0007070977007970214,
+    "kl": 4.231743514537811e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.953,
+    "step": 1906
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002435741713270545,
+    "learning_rate": 4.95e-08,
+    "num_tokens": 1299512.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.00010286550968885422,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9535,
+    "step": 1907
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002487839898094535,
+    "learning_rate": 4.9e-08,
+    "num_tokens": 1299878.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.509875386953354e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.954,
+    "step": 1908
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6476210951805115,
+    "learning_rate": 4.85e-08,
+    "num_tokens": 1300774.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8314999938011169,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8314999938011169,
+    "reward_std": 0.016263457015156746,
+    "kl": 3.3845193684101105e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9545,
+    "step": 1909
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7606059312820435,
+    "learning_rate": 4.8e-08,
+    "num_tokens": 1301670.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.0627474188804626e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.955,
+    "step": 1910
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007995399064384401,
+    "learning_rate": 4.7499999999999995e-08,
+    "num_tokens": 1302566.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.5949440896511078e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9555,
+    "step": 1911
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000665718165691942,
+    "learning_rate": 4.7e-08,
+    "num_tokens": 1303462.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 4.561152309179306e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.956,
+    "step": 1912
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0011164310853928328,
+    "learning_rate": 4.65e-08,
+    "num_tokens": 1303828.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.809388726949692e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9565,
+    "step": 1913
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007526192348450422,
+    "learning_rate": 4.5999999999999995e-08,
+    "num_tokens": 1304724.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.3799999952316284,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.3799999952316284,
+    "reward_std": 0.0,
+    "kl": 4.663970321416855e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.957,
+    "step": 1914
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7351367473602295,
+    "learning_rate": 4.55e-08,
+    "num_tokens": 1305620.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 3.9439648389816284e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9575,
+    "step": 1915
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012141538318246603,
+    "learning_rate": 4.5e-08,
+    "num_tokens": 1306516.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.472412496805191e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.958,
+    "step": 1916
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013145786942914128,
+    "learning_rate": 4.4499999999999995e-08,
+    "num_tokens": 1306882.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.9029714167118073e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9585,
+    "step": 1917
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 3.204422950744629,
+    "learning_rate": 4.4e-08,
+    "num_tokens": 1307778.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8314999938011169,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8314999938011169,
+    "reward_std": 0.016263457015156746,
+    "kl": 7.314607501029968e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.959,
+    "step": 1918
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8346698880195618,
+    "learning_rate": 4.349999999999999e-08,
+    "num_tokens": 1308674.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8365000486373901,
+    "rewards/environment_reward_verifier/std": 0.01909189112484455,
+    "reward": 0.8365000486373901,
+    "reward_std": 0.01909189112484455,
+    "kl": 6.764009594917297e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9595,
+    "step": 1919
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5773689150810242,
+    "learning_rate": 4.2999999999999995e-08,
+    "num_tokens": 1309570.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7935000061988831,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7935000061988831,
+    "reward_std": 0.04879037290811539,
+    "kl": 4.458334296941757e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.96,
+    "step": 1920
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.587773084640503,
+    "learning_rate": 4.2500000000000003e-08,
+    "num_tokens": 1310466.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 5.2959658205509186e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9605,
+    "step": 1921
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5310774445533752,
+    "learning_rate": 4.2e-08,
+    "num_tokens": 1311362.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 2.699345350265503e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.961,
+    "step": 1922
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8070924878120422,
+    "learning_rate": 4.15e-08,
+    "num_tokens": 1312258.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 3.958679735660553e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9615,
+    "step": 1923
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008922016131691635,
+    "learning_rate": 4.1e-08,
+    "num_tokens": 1313154.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.37599998712539673,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.37599998712539673,
+    "reward_std": 0.0,
+    "kl": 3.5449862480163574e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.962,
+    "step": 1924
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8139249682426453,
+    "learning_rate": 4.05e-08,
+    "num_tokens": 1314050.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8500000238418579,
+    "rewards/environment_reward_verifier/std": 0.039597976952791214,
+    "reward": 0.8500000238418579,
+    "reward_std": 0.039597976952791214,
+    "kl": 5.259457975625992e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9625,
+    "step": 1925
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001327203819528222,
+    "learning_rate": 4e-08,
+    "num_tokens": 1314416.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.579313099384308e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.963,
+    "step": 1926
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5970568656921387,
+    "learning_rate": 3.9499999999999996e-08,
+    "num_tokens": 1315312.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.513414412736893e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9635,
+    "step": 1927
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6172381043434143,
+    "learning_rate": 3.9e-08,
+    "num_tokens": 1316208.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8234999775886536,
+    "rewards/environment_reward_verifier/std": 0.016263457015156746,
+    "reward": 0.8234999775886536,
+    "reward_std": 0.016263457015156746,
+    "kl": 2.5690533220767975e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.964,
+    "step": 1928
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9972390532493591,
+    "learning_rate": 3.85e-08,
+    "num_tokens": 1317104.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7860000133514404,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7860000133514404,
+    "reward_std": 0.04808327555656433,
+    "kl": 9.79909673333168e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9645,
+    "step": 1929
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7970294952392578,
+    "learning_rate": 3.7999999999999996e-08,
+    "num_tokens": 1318000.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 3.156159073114395e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.965,
+    "step": 1930
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8544671535491943,
+    "learning_rate": 3.75e-08,
+    "num_tokens": 1318896.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 5.225185304880142e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9655,
+    "step": 1931
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7123236656188965,
+    "learning_rate": 3.6999999999999994e-08,
+    "num_tokens": 1319792.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6074999570846558,
+    "rewards/environment_reward_verifier/std": 0.3217335641384125,
+    "reward": 0.6074999570846558,
+    "reward_std": 0.3217335641384125,
+    "kl": 4.797615110874176e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.966,
+    "step": 1932
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008904593414627016,
+    "learning_rate": 3.6499999999999996e-08,
+    "num_tokens": 1320158.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.0052848160266876e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9665,
+    "step": 1933
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6745616793632507,
+    "learning_rate": 3.6e-08,
+    "num_tokens": 1321054.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.0502045676112175,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.0502045676112175,
+    "kl": 7.80569389462471e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.967,
+    "step": 1934
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0012241753283888102,
+    "learning_rate": 3.5499999999999994e-08,
+    "num_tokens": 1321420.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9836239516735077e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9675,
+    "step": 1935
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.03447146713733673,
+    "learning_rate": 3.5e-08,
+    "num_tokens": 1322316.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.000571289099752903,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.968,
+    "step": 1936
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0031033242121338844,
+    "learning_rate": 3.4500000000000005e-08,
+    "num_tokens": 1323212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8330000042915344,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8330000042915344,
+    "reward_std": 0.0,
+    "kl": 0.00013370532542467117,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9685,
+    "step": 1937
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7509351968765259,
+    "learning_rate": 3.4e-08,
+    "num_tokens": 1324108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.3138319849967957e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.969,
+    "step": 1938
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001145522459410131,
+    "learning_rate": 3.35e-08,
+    "num_tokens": 1324474.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.9367547035217285e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9695,
+    "step": 1939
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6458748579025269,
+    "learning_rate": 3.3e-08,
+    "num_tokens": 1325370.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 3.7299469113349915e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.97,
+    "step": 1940
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005989051423966885,
+    "learning_rate": 3.25e-08,
+    "num_tokens": 1326266.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.194715827703476e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9705,
+    "step": 1941
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.0348713397979736,
+    "learning_rate": 3.2e-08,
+    "num_tokens": 1327162.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.590999960899353,
+    "rewards/environment_reward_verifier/std": 0.30405592918395996,
+    "reward": 0.590999960899353,
+    "reward_std": 0.30405592918395996,
+    "kl": 4.017213359475136e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.971,
+    "step": 1942
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.664190948009491,
+    "learning_rate": 3.15e-08,
+    "num_tokens": 1328058.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5995000004768372,
+    "rewards/environment_reward_verifier/std": 0.31607675552368164,
+    "reward": 0.5995000004768372,
+    "reward_std": 0.31607675552368164,
+    "kl": 5.123857408761978e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9715,
+    "step": 1943
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9491040110588074,
+    "learning_rate": 3.1e-08,
+    "num_tokens": 1328954.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6175000071525574,
+    "rewards/environment_reward_verifier/std": 0.3358757495880127,
+    "reward": 0.6175000071525574,
+    "reward_std": 0.3358757495880127,
+    "kl": 6.263516843318939e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.972,
+    "step": 1944
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003704255912452936,
+    "learning_rate": 3.0499999999999995e-08,
+    "num_tokens": 1329850.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.828000009059906,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.828000009059906,
+    "reward_std": 0.0,
+    "kl": 8.243601769208908e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9725,
+    "step": 1945
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0016652109334245324,
+    "learning_rate": 3e-08,
+    "num_tokens": 1330216.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 6.716791540384293e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.973,
+    "step": 1946
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7003143429756165,
+    "learning_rate": 2.9499999999999996e-08,
+    "num_tokens": 1331112.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7919999957084656,
+    "rewards/environment_reward_verifier/std": 0.0381837822496891,
+    "reward": 0.7919999957084656,
+    "reward_std": 0.0381837822496891,
+    "kl": 5.607306957244873e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9735,
+    "step": 1947
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0020086613949388266,
+    "learning_rate": 2.9e-08,
+    "num_tokens": 1332008.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 9.545870125293732e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.974,
+    "step": 1948
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5554416179656982,
+    "learning_rate": 2.85e-08,
+    "num_tokens": 1332904.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7994999885559082,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7994999885559082,
+    "reward_std": 0.04879037290811539,
+    "kl": 5.0972215831279755e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9745,
+    "step": 1949
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9953874349594116,
+    "learning_rate": 2.8e-08,
+    "num_tokens": 1333800.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7834999561309814,
+    "rewards/environment_reward_verifier/std": 0.04454774409532547,
+    "reward": 0.7834999561309814,
+    "reward_std": 0.04454774409532547,
+    "kl": 5.744118243455887e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.975,
+    "step": 1950
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001727592432871461,
+    "learning_rate": 2.7499999999999998e-08,
+    "num_tokens": 1334166.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 4.033651202917099e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9755,
+    "step": 1951
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.622600793838501,
+    "learning_rate": 2.6999999999999997e-08,
+    "num_tokens": 1335062.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.809499979019165,
+    "rewards/environment_reward_verifier/std": 0.06434673070907593,
+    "reward": 0.809499979019165,
+    "reward_std": 0.06434673070907593,
+    "kl": 3.692321479320526e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.976,
+    "step": 1952
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0006846596952527761,
+    "learning_rate": 2.65e-08,
+    "num_tokens": 1335428.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.568121999502182e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9765,
+    "step": 1953
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001127120340242982,
+    "learning_rate": 2.5999999999999998e-08,
+    "num_tokens": 1335794.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.500135451555252e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.977,
+    "step": 1954
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5068713426589966,
+    "learning_rate": 2.5499999999999997e-08,
+    "num_tokens": 1336690.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.011313731782138348,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.011313731782138348,
+    "kl": 0.00010407902300357819,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9775,
+    "step": 1955
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0013251726049929857,
+    "learning_rate": 2.5e-08,
+    "num_tokens": 1337056.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.0050443708896637e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.978,
+    "step": 1956
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.9759896993637085,
+    "learning_rate": 2.45e-08,
+    "num_tokens": 1337952.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 5.472265183925629e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9785,
+    "step": 1957
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001991751603782177,
+    "learning_rate": 2.4e-08,
+    "num_tokens": 1338318.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7233734726905823e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.979,
+    "step": 1958
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7958042025566101,
+    "learning_rate": 2.35e-08,
+    "num_tokens": 1339214.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7985000014305115,
+    "rewards/environment_reward_verifier/std": 0.04879037290811539,
+    "reward": 0.7985000014305115,
+    "reward_std": 0.04879037290811539,
+    "kl": 0.00012979097664356232,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9795,
+    "step": 1959
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2444452047348022,
+    "learning_rate": 2.2999999999999998e-08,
+    "num_tokens": 1340110.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8149999976158142,
+    "rewards/environment_reward_verifier/std": 0.004242670256644487,
+    "reward": 0.8149999976158142,
+    "reward_std": 0.004242670256644487,
+    "kl": 6.871577352285385e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.98,
+    "step": 1960
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1009396314620972,
+    "learning_rate": 2.25e-08,
+    "num_tokens": 1341006.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8170000314712524,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8170000314712524,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.00026622507721185684,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9805,
+    "step": 1961
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1216737031936646,
+    "learning_rate": 2.2e-08,
+    "num_tokens": 1341902.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8450000286102295,
+    "rewards/environment_reward_verifier/std": 0.014142164029181004,
+    "reward": 0.8450000286102295,
+    "reward_std": 0.014142164029181004,
+    "kl": 0.0002295980229973793,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.981,
+    "step": 1962
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001057165558449924,
+    "learning_rate": 2.1499999999999997e-08,
+    "num_tokens": 1342268.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.635138273239136e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9815,
+    "step": 1963
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009397657704539597,
+    "learning_rate": 2.1e-08,
+    "num_tokens": 1343164.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.765999972820282,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.765999972820282,
+    "reward_std": 0.0,
+    "kl": 4.243478178977966e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.982,
+    "step": 1964
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.002872444223612547,
+    "learning_rate": 2.05e-08,
+    "num_tokens": 1343530.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 5.2745454013347626e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9825,
+    "step": 1965
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009532644180580974,
+    "learning_rate": 2e-08,
+    "num_tokens": 1343896.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.329066723585129e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.983,
+    "step": 1966
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001970401033759117,
+    "learning_rate": 1.95e-08,
+    "num_tokens": 1344262.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.7478672564029694e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9835,
+    "step": 1967
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8466808795928955,
+    "learning_rate": 1.8999999999999998e-08,
+    "num_tokens": 1345158.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.609499990940094,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.609499990940094,
+    "reward_std": 0.32031938433647156,
+    "kl": 6.240885704755783e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.984,
+    "step": 1968
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7395403385162354,
+    "learning_rate": 1.8499999999999997e-08,
+    "num_tokens": 1346054.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7854999899864197,
+    "rewards/environment_reward_verifier/std": 0.037476640194654465,
+    "reward": 0.7854999899864197,
+    "reward_std": 0.037476640194654465,
+    "kl": 3.7410296499729156e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9845,
+    "step": 1969
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.005028001964092255,
+    "learning_rate": 1.8e-08,
+    "num_tokens": 1346420.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 8.665304630994797e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.985,
+    "step": 1970
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7261149883270264,
+    "learning_rate": 1.75e-08,
+    "num_tokens": 1347316.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5900000333786011,
+    "rewards/environment_reward_verifier/std": 0.29698485136032104,
+    "reward": 0.5900000333786011,
+    "reward_std": 0.29698485136032104,
+    "kl": 8.442811667919159e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9855,
+    "step": 1971
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007656632806174457,
+    "learning_rate": 1.7e-08,
+    "num_tokens": 1348212.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.391185939311981e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.986,
+    "step": 1972
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2559970617294312,
+    "learning_rate": 1.65e-08,
+    "num_tokens": 1349108.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8109999895095825,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8109999895095825,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.00017483532428741455,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9865,
+    "step": 1973
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007610286120325327,
+    "learning_rate": 1.6e-08,
+    "num_tokens": 1350004.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 2.6444904506206512e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.987,
+    "step": 1974
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.5096609592437744,
+    "learning_rate": 1.55e-08,
+    "num_tokens": 1350900.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.6065000295639038,
+    "rewards/environment_reward_verifier/std": 0.32031938433647156,
+    "reward": 0.6065000295639038,
+    "reward_std": 0.32031938433647156,
+    "kl": 6.0974620282649994e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9875,
+    "step": 1975
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8040772080421448,
+    "learning_rate": 1.5e-08,
+    "num_tokens": 1351796.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5975000262260437,
+    "rewards/environment_reward_verifier/std": 0.3047630488872528,
+    "reward": 0.5975000262260437,
+    "reward_std": 0.3047630488872528,
+    "kl": 7.442384958267212e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.988,
+    "step": 1976
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008832589373923838,
+    "learning_rate": 1.45e-08,
+    "num_tokens": 1352162.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 1.8139369785785675e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9885,
+    "step": 1977
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000580662686843425,
+    "learning_rate": 1.4e-08,
+    "num_tokens": 1352528.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.3657456040382385e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.989,
+    "step": 1978
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015710809966549277,
+    "learning_rate": 1.3499999999999998e-08,
+    "num_tokens": 1352894.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.9046240746974945e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9895,
+    "step": 1979
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.2286361455917358,
+    "learning_rate": 1.2999999999999999e-08,
+    "num_tokens": 1353790.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8389999866485596,
+    "rewards/environment_reward_verifier/std": 0.055154334753751755,
+    "reward": 0.8389999866485596,
+    "reward_std": 0.055154334753751755,
+    "kl": 0.00014132726937532425,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.99,
+    "step": 1980
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.000873856944963336,
+    "learning_rate": 1.25e-08,
+    "num_tokens": 1354156.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.497488796710968e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9905,
+    "step": 1981
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.003963265102356672,
+    "learning_rate": 1.2e-08,
+    "num_tokens": 1355052.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 0.00016738008707761765,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.991,
+    "step": 1982
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0010274512460455298,
+    "learning_rate": 1.1499999999999999e-08,
+    "num_tokens": 1355948.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 6.77201896905899e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9915,
+    "step": 1983
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005545667372643948,
+    "learning_rate": 1.1e-08,
+    "num_tokens": 1356844.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 3.383960574865341e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.992,
+    "step": 1984
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001100558671168983,
+    "learning_rate": 1.05e-08,
+    "num_tokens": 1357210.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 4.336796700954437e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9925,
+    "step": 1985
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.7508660554885864,
+    "learning_rate": 1e-08,
+    "num_tokens": 1358106.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 7.212162017822266e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.993,
+    "step": 1986
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.8998424410820007,
+    "learning_rate": 9.499999999999999e-09,
+    "num_tokens": 1359002.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8224999904632568,
+    "rewards/environment_reward_verifier/std": 0.014849262312054634,
+    "reward": 0.8224999904632568,
+    "reward_std": 0.014849262312054634,
+    "kl": 3.0959490686655045e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9935,
+    "step": 1987
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0005708038806915283,
+    "learning_rate": 9e-09,
+    "num_tokens": 1359368.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.1286308765411377e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.994,
+    "step": 1988
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 1.1188461780548096,
+    "learning_rate": 8.5e-09,
+    "num_tokens": 1360264.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 0.00014527235180139542,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9945,
+    "step": 1989
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.5586024522781372,
+    "learning_rate": 8e-09,
+    "num_tokens": 1361160.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5959999561309814,
+    "rewards/environment_reward_verifier/std": 0.3054701089859009,
+    "reward": 0.5959999561309814,
+    "reward_std": 0.3054701089859009,
+    "kl": 3.770552575588226e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.995,
+    "step": 1990
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007088059210218489,
+    "learning_rate": 7.5e-09,
+    "num_tokens": 1361526.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 2.6285648345947266e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9955,
+    "step": 1991
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.00330960750579834,
+    "learning_rate": 7e-09,
+    "num_tokens": 1362422.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 0.0001575574278831482,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.996,
+    "step": 1992
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.916315495967865,
+    "learning_rate": 6.4999999999999995e-09,
+    "num_tokens": 1363318.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8109999895095825,
+    "rewards/environment_reward_verifier/std": 0.01555635966360569,
+    "reward": 0.8109999895095825,
+    "reward_std": 0.01555635966360569,
+    "kl": 0.00013699568808078766,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9965,
+    "step": 1993
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.6125226020812988,
+    "learning_rate": 6e-09,
+    "num_tokens": 1364214.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.5720000267028809,
+    "rewards/environment_reward_verifier/std": 0.27152901887893677,
+    "reward": 0.5720000267028809,
+    "reward_std": 0.27152901887893677,
+    "kl": 5.8222562074661255e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.997,
+    "step": 1994
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.001430765725672245,
+    "learning_rate": 5.5e-09,
+    "num_tokens": 1364580.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7639999985694885,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7639999985694885,
+    "reward_std": 0.0,
+    "kl": 1.9777566194534302e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9975,
+    "step": 1995
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0009554658317938447,
+    "learning_rate": 5e-09,
+    "num_tokens": 1365476.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7590000033378601,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.7590000033378601,
+    "reward_std": 0.0,
+    "kl": 5.196593701839447e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.998,
+    "step": 1996
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.707953155040741,
+    "learning_rate": 4.5e-09,
+    "num_tokens": 1366372.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.7979999780654907,
+    "rewards/environment_reward_verifier/std": 0.04808327555656433,
+    "reward": 0.7979999780654907,
+    "reward_std": 0.04808327555656433,
+    "kl": 3.2736919820308685e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9985,
+    "step": 1997
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0008880810928530991,
+    "learning_rate": 4e-09,
+    "num_tokens": 1366738.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.86582687497139e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.999,
+    "step": 1998
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0015981695614755154,
+    "learning_rate": 3.5e-09,
+    "num_tokens": 1367634.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8130000233650208,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8130000233650208,
+    "reward_std": 0.0,
+    "kl": 5.8078207075595856e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 0.9995,
+    "step": 1999
+  },
+  {
+    "loss": 0.0,
+    "grad_norm": 0.0007903846562840044,
+    "learning_rate": 3e-09,
+    "num_tokens": 1368000.0,
+    "completions/mean_length": 64.0,
+    "completions/min_length": 64.0,
+    "completions/max_length": 64.0,
+    "completions/clipped_ratio": 1.0,
+    "completions/mean_terminated_length": 0.0,
+    "completions/min_terminated_length": 0.0,
+    "completions/max_terminated_length": 0.0,
+    "rewards/environment_reward_verifier/mean": 0.8119999766349792,
+    "rewards/environment_reward_verifier/std": 0.0,
+    "reward": 0.8119999766349792,
+    "reward_std": 0.0,
+    "kl": 3.558676689863205e-05,
+    "clip_ratio/low_mean": 0.0,
+    "clip_ratio/low_min": 0.0,
+    "clip_ratio/high_mean": 0.0,
+    "clip_ratio/high_max": 0.0,
+    "clip_ratio/region_mean": 0.0,
+    "epoch": 1.0,
+    "step": 2000
+  },
+  {
+    "train_runtime": 6873.9375,
+    "train_samples_per_second": 0.291,
+    "train_steps_per_second": 0.291,
+    "total_flos": 0.0,
+    "train_loss": 2.665005830824185e-06,
+    "epoch": 1.0,
+    "step": 2000
+  }
+]
\ No newline at end of file
diff --git a/docs/results/sweeps/qwen-qwen2-5-3b-instruct/grpo_trl_run.json b/docs/results/sweeps/qwen-qwen2-5-3b-instruct/grpo_trl_run.json
new file mode 100644
index 0000000000000000000000000000000000000000..87ca8fb39dcfbc92786e290045c1da201ca5d1df
--- /dev/null
+++ b/docs/results/sweeps/qwen-qwen2-5-3b-instruct/grpo_trl_run.json
@@ -0,0 +1,43 @@
+{
+  "status": "ok",
+  "backend": "trl_transformers",
+  "model_id": "Qwen/Qwen2.5-3B-Instruct",
+  "records": 2000,
+  "prompts_path": "/app/data/processed/training_corpus_grpo_prompts.jsonl",
+  "reward_summary": {
+    "count": 4000,
+    "avg_reward": 0.767,
+    "avg_reward_components": {
+      "format_compliance_score": 0.999,
+      "candidate_alignment_score": 0.999,
+      "legality_score": 0.929,
+      "safety_delta_score": 0.497,
+      "burden_improvement_score": 0.469,
+      "disease_stability_score": 0.861,
+      "dosing_quality_score": 0.526,
+      "abstention_quality_score": 0.56,
+      "efficiency_score": 0.849,
+      "process_fidelity_score": 0.856,
+      "explanation_grounding_score": 0.795,
+      "anti_cheat_score": 0.589,
+      "uncertainty_calibration_score": 0.747
+    },
+    "avg_primary_reward_channels": {
+      "safety_legality": 0.816,
+      "clinical_improvement": 0.609,
+      "dosing_quality": 0.543,
+      "process_integrity": 0.875
+    }
+  },
+  "reward_log": "/app/checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl",
+  "train_metrics": {
+    "train_runtime": 6873.9375,
+    "train_samples_per_second": 0.291,
+    "train_steps_per_second": 0.291,
+    "total_flos": 0.0,
+    "train_loss": 2.665005830824185e-06
+  },
+  "history_path": "/app/checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_history.json",
+  "artifact_path": "/app/checkpoints/sweeps/qwen-qwen2-5-3b-instruct/grpo_adapter",
+  "unsloth_available": false
+}
\ No newline at end of file
diff --git a/docs/results/train_holdout_gap.png b/docs/results/train_holdout_gap.png
index 3bf8436ec672a1cb1875c178b9369e85e5aca2e8..3fbf53ce81e3f27087a3db7baecdfc37f81a74fc 100644
Binary files a/docs/results/train_holdout_gap.png and b/docs/results/train_holdout_gap.png differ
diff --git a/docs/submission_artifacts.md b/docs/submission_artifacts.md
new file mode 100644
index 0000000000000000000000000000000000000000..ebc92392c144e586f3dabd1cd7ce93522333ab3a
--- /dev/null
+++ b/docs/submission_artifacts.md
@@ -0,0 +1,154 @@
+# Submission Artifact Index
+
+This page points reviewers to the shared environment, training scripts, and
+training logs/results. It is intentionally path-based so the artifacts can be
+found from a fresh clone without relying on local `outputs/` or `checkpoints/`
+folders.
+
+## Environment And Runtime
+
+Core OpenEnv/runtime files:
+
+- `openenv.yaml` - OpenEnv package entrypoint and deployment metadata.
+- `server/app.py` - ASGI/FastAPI bridge used by OpenEnv validation and Space deployment.
+- `app/env/env_core.py` - canonical `PolyGuardEnv` reset/step/state implementation.
+- `app/env/fastapi_app.py` - HTTP API, catalog, reset, step, and candidate-step routes.
+- `app/env/reward_router.py` - verifier-backed reward routing.
+- `app/env/reward_scaling.py` - reward clamping/rounding to `[0.001, 0.999]`.
+- `app/env/anti_cheat.py` - anti-hacking and invalid-action checks.
+- `app/env/catalog.py` - task preset and sub-environment catalog.
+
+Dependency and container files:
+
+- `pyproject.toml` and `uv.lock` - local Python environment lock.
+- `requirements.txt` - local/runtime pip dependency export.
+- `requirements-space.txt` - Hugging Face Space dependency export.
+- `.env.example` - non-secret environment variable template.
+- `Dockerfile` - local/container runtime.
+- `Dockerfile.space` - product HF Space runtime.
+- `app/hf_space/Dockerfile` - HF training/evidence Space runtime.
+- `configs/sft.yaml` and `configs/grpo.yaml` - train-loop defaults.
+- `configs/rewards.yaml`, `configs/curriculum.yaml`, and `configs/env_*.yaml` - environment/reward/curriculum configuration.
+
+Secrets are not committed. Hugging Face access is supplied through `HF_TOKEN`
+as an environment variable or notebook/Space secret.
+
+## Training Scripts And Notebooks
+
+End-to-end runner notebooks:
+
+- `PolyGuard_SFT_GRPO_One_Run_Runner.ipynb` - one-run data build, SFT, GRPO, artifact pull, inference validation, chart generation, and Space deployment.
+- `notebooks/09_training_loop.ipynb` - modular walkthrough of the same loop.
+
+Dataset and corpus scripts:
+
+- `scripts/bootstrap_data.py`
+- `scripts/build_training_corpus.py`
+- `scripts/generate_sft_data.py`
+
+SFT/GRPO training scripts:
+
+- `scripts/train_sft_trl.py` - TRL SFT baseline.
+- `scripts/train_grpo_trl.py` - TRL GRPO with environment-backed reward.
+- `scripts/train_grpo_policy.py`
+- `scripts/train_grpo_planner.py`
+- `scripts/train_grpo_supervisor.py`
+- `scripts/train_grpo_dosing.py`
+- `app/training/sft_trl.py`
+- `app/training/grpo_trl.py`
+- `app/training/openenv_wrapper.py`
+- `app/training/reward_functions.py`
+- `app/training/callbacks.py`
+- `app/training/checkpointing.py`
+
+Hugging Face training/evidence scripts:
+
+- `scripts/deploy_training_space.py` - creates/runs the GPU training Space.
+- `app/hf_space/training_runner.py` - Space-side training orchestrator.
+- `scripts/monitor_training_space_status.py` - Space status/log monitor.
+- `scripts/pull_training_artifacts.py` - artifact puller from the HF model repo.
+- `scripts/deploy_evidence_space.py` and `app/hf_space/evidence_runner.py` - evaluation-only evidence Space.
+- `scripts/generate_hf_training_report.py` - training/sweep chart generation.
+- `scripts/generate_submission_evidence.py` - evidence bundle generation without retraining.
+- `scripts/deploy_final_artifact_space.py` - packages final public evidence/model artifacts into the final HF Space.
+
+Post-training and inference scripts:
+
+- `scripts/merge_adapters_safe.py`
+- `scripts/test_inference_postsave.py`
+- `scripts/benchmark_inference.py`
+- `scripts/activate_sweep_model.py`
+- `scripts/install_hf_active_bundle.py`
+
+## Training Logs And Result Evidence
+
+Final curated evidence:
+
+- `docs/results/final_submission_evidence/README.md` - final evidence overview.
+- `docs/results/final_submission_evidence/manifest.json` - artifact availability and final HF Space manifest.
+- `docs/results/final_submission_evidence/reports/submission_summary.json` - final three-model summary.
+- `docs/results/final_submission_evidence/reports/grpo_trl_run.json` - Qwen 3B GRPO training run report.
+- `docs/results/final_submission_evidence/reports/postsave_inference_grpo.json` - post-save GRPO inference check.
+- `docs/results/final_submission_evidence/reports/grpo_ablation_report.json` - GRPO/policy ablation report.
+- `docs/results/final_submission_evidence/reports/basic_llm_vs_polyguard_report.json` - baseline LLM-style policy vs full PolyGuard pipeline.
+- `docs/results/final_submission_evidence/reports/action_traces.jsonl` - matched action traces with verifier output.
+- `docs/results/final_submission_evidence/charts/curated/README.md` - visually reviewed chart index.
+
+Per-model sweep histories:
+
+- `docs/results/sweeps/qwen-qwen2-5-0-5b-instruct/sft_history.json`
+- `docs/results/sweeps/qwen-qwen2-5-0-5b-instruct/sft_trl_run.json`
+- `docs/results/sweeps/qwen-qwen2-5-1-5b-instruct/sft_history.json`
+- `docs/results/sweeps/qwen-qwen2-5-1-5b-instruct/sft_trl_run.json`
+- `docs/results/sweeps/qwen-qwen2-5-3b-instruct/sft_history.json`
+- `docs/results/sweeps/qwen-qwen2-5-3b-instruct/sft_trl_run.json`
+- `docs/results/sweeps/qwen-qwen2-5-3b-instruct/grpo_history.json`
+- `docs/results/sweeps/qwen-qwen2-5-3b-instruct/grpo_trl_run.json`
+
+Three-model submission evidence:
+
+- `docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-0-5b-instruct/sft_history.json`
+- `docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-1-5b-instruct/sft_history.json`
+- `docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/sft_history.json`
+- `docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/grpo_history.json`
+- `docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/runs/qwen-qwen2-5-3b-instruct/grpo_reward_components.jsonl`
+- `docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/remote_stage_records.json`
+
+Completed-run status snapshots:
+
+- `docs/results/qwen_completed_runs/reports/remote_status/live_hf_status_snapshot.json`
+- `docs/results/qwen_completed_runs/reports/remote_status/qwen_0_5b_completed_commands.json`
+- `docs/results/qwen_completed_runs/reports/remote_status/qwen_1_5b_completed_commands.json`
+- `docs/results/qwen_completed_runs/reports/remote_status/qwen_0_5b_1_5b_remote_stage_durations.json`
+- `docs/results/submission_evidence/qwen_3b_continuation/training_space_runtime_status.json`
+
+Legacy/local smoke logs are retained under `docs/results/active_model/`,
+`docs/results/grpo_training_cycle/`, and `submission_bundle/` for auditability.
+
+## Model Artifacts
+
+The public final artifact/evidence Space is:
+
+- https://huggingface.co/spaces/adithya9903/polyguard-openenv-final-artifacts
+
+The tracked local manifest is:
+
+- `docs/results/final_submission_evidence/manifest.json`
+
+At packaging time, Qwen 3B had SFT and GRPO adapter directories plus checkpoint
+metadata in the final Space. Qwen 0.5B and 1.5B have reports/histories in this
+repo, but their adapter directories were not present in the checked artifact
+mirrors and are labeled `reports_only_or_partial`.
+
+The final artifact Space and this checked-in evidence mirror are the public
+review paths. Authenticated downloads, when needed by maintainers, are
+operational details rather than part of the public submission narrative.
+
+## Reproduction Paths
+
+Local smoke path: build the small corpus, run a short SFT pass, run a short GRPO
+pass, validate post-save inference, and generate local reports.
+
+Full HF Space path: use the one-run notebook or training Space runner when you
+control the required Hugging Face credentials and hardware. The public evidence
+for review is the final curated bundle, not private training commands.
diff --git a/docs/submission_checklist.md b/docs/submission_checklist.md
index 53296f1eb3f153a8b0b282b82b4e5e9114cddc6d..802a3fd349d6609b3160f1ebef9c6588e2988fee 100644
--- a/docs/submission_checklist.md
+++ b/docs/submission_checklist.md
@@ -128,7 +128,7 @@ Strict mode passed during the April 26, 2026 audit. It does not perform live HTT
 ```bash
 ./.venv/bin/hf auth login
 ./.venv/bin/hf auth whoami
-export HF_SPACE_REPO_ID="TheJackBright/polyguard-openenv"
+export HF_SPACE_REPO_ID="TheJackBright/polyguard-openenv-workbench"
 ```
 
 Use `./.venv/bin/hf`, not the global `hf` binary.
diff --git a/docs/training.md b/docs/training.md
index 69f54853d89a06dc52c19b7791106d890ee38768..99a35d015e55307995091edccb3e6982ace33511 100644
--- a/docs/training.md
+++ b/docs/training.md
@@ -18,6 +18,18 @@
 
 Training entrypoints require Hugging Face TRL by default. Fallback backends are opt-in only via `--allow-fallback` or `POLYGUARD_ALLOW_TRAIN_FALLBACK=true`.
 
+## Shared Submission Artifacts
+
+The environment files, training scripts, notebooks, and logs/results required
+for review are indexed in [Submission Artifact Index](submission_artifacts.md).
+
+Key shared files:
+
+- Environment/runtime: `openenv.yaml`, `pyproject.toml`, `uv.lock`, `requirements*.txt`, `Dockerfile*`, `app/env/`, `server/app.py`, and `app/hf_space/Dockerfile`.
+- Training scripts: `scripts/train_sft_trl.py`, `scripts/train_grpo_trl.py`, `scripts/deploy_training_space.py`, `app/hf_space/training_runner.py`, and `app/training/`.
+- Training notebooks: `PolyGuard_SFT_GRPO_One_Run_Runner.ipynb` and `notebooks/09_training_loop.ipynb`.
+- Training logs/results: `docs/results/final_submission_evidence/reports/`, `docs/results/sweeps/`, `docs/results/submission_evidence_qwen_0_5b_1_5b_3b/reports/`, and `docs/results/qwen_completed_runs/reports/`.
+
 ## Local Smoke Commands
 
 ```bash
@@ -39,39 +51,17 @@ The root-level one-run notebook is:
 PolyGuard_SFT_GRPO_One_Run_Runner.ipynb
 ```
 
-Run it top to bottom for the complete data build, SFT baseline, GRPO training, artifact pull, post-save inference validation, report/chart generation, and product HF Space deployment path. It reads `HF_TOKEN` from an environment variable or Colab secret and does not store tokens in the notebook.
-
-```bash
-export HF_TOKEN="<write-token>"
-.venv/bin/python scripts/deploy_training_space.py \
-  --repo-id TheJackBright/polyguard-openenv-training-full \
-  --artifact-repo-id TheJackBright/polyguard-openenv-training-full-artifacts \
-  --hardware a10g-large \
-  --model-sweep Qwen/Qwen2.5-0.5B-Instruct,Qwen/Qwen2.5-1.5B-Instruct,Qwen/Qwen2.5-3B-Instruct \
-  --sft-epochs 2 \
-  --grpo-epochs 1 \
-  --sft-max-steps 0 \
-  --grpo-max-steps 0 \
-  --grpo-max-prompts 0
-```
+Run it top to bottom for the complete data build, SFT baseline, GRPO training,
+artifact pull, post-save inference validation, report/chart generation, and
+product HF Space deployment path. Any required Hugging Face credentials are
+provided by the runner environment or Space secret, not stored in the repo.
 
 The training runner builds the full corpus with `--profile massive --with-local --with-synthetic --with-hf`, trains SFT as the baseline and GRPO as the improved environment-backed policy for each Qwen model, then writes isolated sweep artifacts under `outputs/reports/sweeps/<model>/` and `checkpoints/sweeps/<model>/`.
 
-Status snapshot from April 26, 2026:
-
-- `TheJackBright/polyguard-openenv-training-full` is running on `a10g-large`.
-- Qwen 0.5B SFT and GRPO completed inside the Space.
-- Qwen 1.5B SFT completed and Qwen 1.5B GRPO was running.
-- Qwen 3B was not interrupted and should continue after 1.5B.
-- `TheJackBright/polyguard-openenv-training-full-artifacts` had not received the exported files yet, so run files cannot be pulled until the Space reaches the upload stage.
-
-The run-specific pull command is:
-
-```bash
-.venv/bin/python scripts/pull_sweep_artifacts.py \
-  --artifact-repo-id TheJackBright/polyguard-openenv-training-full-artifacts \
-  --run-id qwen-qwen2-5-0-5b-instruct
-```
+The final public evidence is no longer the intermediate Space status. Use
+`docs/results/final_submission_evidence/` for the completed Qwen 0.5B/1.5B SFT
+reports and the completed Qwen 3B SFT+GRPO reports, charts, post-save
+inference, ablations, and artifact manifest.
 
 Final comparison and safety artifacts:
 
diff --git a/scripts/deploy_final_artifact_space.py b/scripts/deploy_final_artifact_space.py
new file mode 100644
index 0000000000000000000000000000000000000000..0590a5c6043c38ad3bc0e822c93a510c138d8fc2
--- /dev/null
+++ b/scripts/deploy_final_artifact_space.py
@@ -0,0 +1,588 @@
+#!/usr/bin/env python3
+"""Build and optionally deploy the final PolyGuard artifact Space.
+
+The script is intentionally packaging-only: it does not train or modify model
+weights. It mirrors the best tracked evidence into docs/results, packages the
+available model artifacts into a separate Hugging Face Space, and records
+missing artifacts honestly in a manifest.
+"""
+
+from __future__ import annotations
+
+import argparse
+import html
+import json
+import os
+from pathlib import Path
+import shutil
+from typing import Any
+
+import matplotlib
+
+matplotlib.use("Agg")
+import matplotlib.pyplot as plt  # noqa: E402
+
+from huggingface_hub import HfApi  # noqa: E402
+
+
+ROOT = Path(__file__).resolve().parents[1]
+DEFAULT_SPACE_ID = "adithya9903/polyguard-openenv-final-artifacts"
+DEFAULT_DOCS_DIR = ROOT / "docs" / "results" / "final_submission_evidence"
+DEFAULT_SPACE_DIR = Path("/tmp/polyguard-final-artifact-space")
+EVIDENCE_DIR = ROOT / "docs" / "results" / "submission_evidence_qwen_0_5b_1_5b_3b"
+SWEEP_REPORT_DIR = ROOT / "outputs" / "reports" / "sweeps"
+SWEEP_CHECKPOINT_DIR = ROOT / "checkpoints" / "sweeps"
+
+
+RUNS = {
+    "qwen-qwen2-5-0-5b-instruct": {
+        "label": "Qwen 0.5B",
+        "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
+    },
+    "qwen-qwen2-5-1-5b-instruct": {
+        "label": "Qwen 1.5B",
+        "model_id": "Qwen/Qwen2.5-1.5B-Instruct",
+    },
+    "qwen-qwen2-5-3b-instruct": {
+        "label": "Qwen 3B",
+        "model_id": "Qwen/Qwen2.5-3B-Instruct",
+    },
+}
+
+
+FRONTPAGE_CHARTS = {
+    "01_basic_llm_vs_full_pipeline_reward.png": (
+        EVIDENCE_DIR / "charts" / "generated" / "basic_llm_vs_full_pipeline_reward.png"
+    ),
+    "02_reward_delta_by_seed.png": (
+        EVIDENCE_DIR / "charts" / "generated" / "basic_llm_vs_full_pipeline_reward_delta_by_seed.png"
+    ),
+    "03_policy_ablation_reward.png": (
+        EVIDENCE_DIR / "charts" / "generated" / "policy_ablation_avg_reward.png"
+    ),
+    "04_reward_components.png": (
+        EVIDENCE_DIR / "charts" / "generated" / "reward_component_bars.png"
+    ),
+    "05_train_holdout_gap.png": (
+        EVIDENCE_DIR / "charts" / "local_available_combined" / "train_holdout_gap.png"
+    ),
+    "06_inference_latency_validity.png": (
+        EVIDENCE_DIR / "charts" / "local_available_combined" / "inference_latency_validity.png"
+    ),
+    "07_sft_vs_grpo_reward.png": (
+        EVIDENCE_DIR / "charts" / "local_available_combined" / "sft_vs_grpo_reward.png"
+    ),
+}
+
+
+def parse_args() -> argparse.Namespace:
+    parser = argparse.ArgumentParser(description="Deploy the final PolyGuard artifact Space.")
+    parser.add_argument("--space-id", default=DEFAULT_SPACE_ID)
+    parser.add_argument("--docs-dir", default=str(DEFAULT_DOCS_DIR))
+    parser.add_argument("--space-dir", default=str(DEFAULT_SPACE_DIR))
+    parser.add_argument("--public", action="store_true", help="Create/update the Space as public.")
+    parser.add_argument("--deploy", action="store_true", help="Upload the Space bundle to Hugging Face.")
+    parser.add_argument("--skip-docs", action="store_true")
+    return parser.parse_args()
+
+
+def load_json(path: Path, default: Any) -> Any:
+    if not path.exists():
+        return default
+    try:
+        return json.loads(path.read_text(encoding="utf-8"))
+    except json.JSONDecodeError:
+        return default
+
+
+def write_json(path: Path, payload: Any) -> None:
+    path.parent.mkdir(parents=True, exist_ok=True)
+    path.write_text(json.dumps(payload, ensure_ascii=True, indent=2) + "\n", encoding="utf-8")
+
+
+def write_text(path: Path, text: str) -> None:
+    path.parent.mkdir(parents=True, exist_ok=True)
+    path.write_text(text, encoding="utf-8")
+
+
+def copy_file(src: Path, dst: Path) -> bool:
+    if not src.exists():
+        return False
+    dst.parent.mkdir(parents=True, exist_ok=True)
+    shutil.copy2(src, dst)
+    return True
+
+
+def copy_tree(src: Path, dst: Path) -> dict[str, Any]:
+    if not src.exists():
+        return {"exists": False, "file_count": 0, "bytes": 0}
+    if dst.exists():
+        shutil.rmtree(dst)
+    shutil.copytree(src, dst, ignore=shutil.ignore_patterns(".DS_Store", "__pycache__", "*.pyc"))
+    files = [path for path in dst.rglob("*") if path.is_file()]
+    return {
+        "exists": True,
+        "file_count": len(files),
+        "bytes": sum(path.stat().st_size for path in files),
+    }
+
+
+def dir_size(path: Path) -> int:
+    if not path.exists():
+        return 0
+    return sum(item.stat().st_size for item in path.rglob("*") if item.is_file())
+
+
+def summarize_artifact_dir(path: Path) -> dict[str, Any]:
+    return {
+        "exists": path.exists(),
+        "file_count": len([p for p in path.rglob("*") if p.is_file()]) if path.exists() else 0,
+        "bytes": dir_size(path),
+    }
+
+
+def plot_model_reward(summary: dict[str, Any], path: Path) -> None:
+    labels: list[str] = []
+    sft: list[float] = []
+    grpo: list[float | None] = []
+    for model in summary.get("models", []):
+        metrics = model.get("metrics", {})
+        labels.append(str(model.get("label") or model.get("run_id")))
+        sft.append(float(metrics.get("sft_avg_env_reward") or 0.0))
+        value = metrics.get("grpo_avg_env_reward")
+        grpo.append(float(value) if value is not None else None)
+
+    if not labels:
+        return
+    path.parent.mkdir(parents=True, exist_ok=True)
+    x = list(range(len(labels)))
+    width = 0.35
+    plt.figure(figsize=(9.5, 5))
+    plt.bar([i - width / 2 for i in x], sft, width=width, label="SFT baseline")
+    grpo_values = [value if value is not None else 0.0 for value in grpo]
+    plt.bar([i + width / 2 for i in x], grpo_values, width=width, label="GRPO policy")
+    for i, value in enumerate(grpo):
+        if value is None:
+            plt.text(i + width / 2, 0.025, "pending", ha="center", rotation=90, fontsize=8)
+    plt.ylim(0, 1)
+    plt.ylabel("Verifier reward")
+    plt.title("SFT Baseline vs GRPO Policy Reward")
+    plt.xticks(x, labels)
+    plt.legend()
+    plt.tight_layout()
+    plt.savefig(path, dpi=180)
+    plt.close()
+
+
+def plot_sft_loss(summary: dict[str, Any], path: Path) -> None:
+    labels: list[str] = []
+    values: list[float] = []
+    for model in summary.get("models", []):
+        labels.append(str(model.get("label") or model.get("run_id")))
+        values.append(float(model.get("metrics", {}).get("sft_train_loss") or 0.0))
+    if not labels:
+        return
+    path.parent.mkdir(parents=True, exist_ok=True)
+    plt.figure(figsize=(9.5, 5))
+    plt.bar(labels, values, color=["#315f72", "#8a5a44", "#2f6f4e"][: len(labels)])
+    plt.ylabel("Final SFT train loss")
+    plt.title("SFT Training Loss By Qwen Size")
+    plt.tight_layout()
+    plt.savefig(path, dpi=180)
+    plt.close()
+
+
+def plot_grpo_curve(history_path: Path, output: Path) -> None:
+    rows = load_json(history_path, [])
+    points = [
+        (int(row.get("step") or idx + 1), float(row.get("reward")))
+        for idx, row in enumerate(rows)
+        if isinstance(row, dict) and row.get("reward") is not None
+    ]
+    if not points:
+        return
+    output.parent.mkdir(parents=True, exist_ok=True)
+    steps, rewards = zip(*points)
+    window = 50
+    smooth = []
+    for idx in range(len(rewards)):
+        start = max(0, idx - window + 1)
+        smooth.append(sum(rewards[start : idx + 1]) / (idx - start + 1))
+    plt.figure(figsize=(10, 5))
+    plt.plot(steps, rewards, alpha=0.18, label="step reward")
+    plt.plot(steps, smooth, linewidth=2.0, label="rolling mean (50)")
+    plt.ylim(0, 1)
+    plt.xlabel("GRPO step")
+    plt.ylabel("Verifier reward")
+    plt.title("Qwen 3B GRPO Reward Curve")
+    plt.legend()
+    plt.tight_layout()
+    plt.savefig(output, dpi=180)
+    plt.close()
+
+
+def artifact_availability() -> dict[str, Any]:
+    availability: dict[str, Any] = {}
+    for run_id, meta in RUNS.items():
+        checkpoint_dir = SWEEP_CHECKPOINT_DIR / run_id
+        report_dir = SWEEP_REPORT_DIR / run_id
+        sft_adapter = checkpoint_dir / "sft_adapter"
+        grpo_adapter = checkpoint_dir / "grpo_adapter"
+        availability[run_id] = {
+            "label": meta["label"],
+            "model_id": meta["model_id"],
+            "checkpoint_tree": summarize_artifact_dir(checkpoint_dir),
+            "sft_adapter": summarize_artifact_dir(sft_adapter),
+            "grpo_adapter": summarize_artifact_dir(grpo_adapter),
+            "reports": summarize_artifact_dir(report_dir),
+            "sft_report": (report_dir / "sft_trl_run.json").exists(),
+            "grpo_report": (report_dir / "grpo_trl_run.json").exists(),
+            "postsave_sft": (report_dir / "postsave_inference_sft.json").exists(),
+            "postsave_grpo": (report_dir / "postsave_inference_grpo.json").exists(),
+            "policy_ablation": (report_dir / "grpo_ablation_report.json").exists(),
+        }
+        missing: list[str] = []
+        if not sft_adapter.exists():
+            missing.append("sft_adapter")
+        if not grpo_adapter.exists():
+            missing.append("grpo_adapter")
+        availability[run_id]["missing_trained_files"] = missing
+        availability[run_id]["status"] = "complete" if not missing else "reports_only_or_partial"
+    return availability
+
+
+def build_docs(docs_dir: Path, manifest: dict[str, Any]) -> None:
+    if docs_dir.exists():
+        shutil.rmtree(docs_dir)
+    (docs_dir / "charts" / "frontpage").mkdir(parents=True, exist_ok=True)
+    (docs_dir / "charts" / "all").mkdir(parents=True, exist_ok=True)
+    (docs_dir / "reports").mkdir(parents=True, exist_ok=True)
+
+    summary = load_json(EVIDENCE_DIR / "submission_summary.json", {})
+    plot_model_reward(summary, docs_dir / "charts" / "frontpage" / "00_sft_vs_grpo_reward_by_model.png")
+    plot_sft_loss(summary, docs_dir / "charts" / "frontpage" / "08_sft_loss_by_model.png")
+    plot_grpo_curve(
+        SWEEP_REPORT_DIR / "qwen-qwen2-5-3b-instruct" / "grpo_history.json",
+        docs_dir / "charts" / "frontpage" / "09_qwen_3b_grpo_reward_curve.png",
+    )
+
+    copied: list[str] = []
+    for name, source in FRONTPAGE_CHARTS.items():
+        if copy_file(source, docs_dir / "charts" / "frontpage" / name):
+            copied.append(name)
+
+    for source_dir in [
+        EVIDENCE_DIR / "charts" / "generated",
+        EVIDENCE_DIR / "charts" / "local_available_combined",
+    ]:
+        if source_dir.exists():
+            for item in sorted(source_dir.glob("*.png")):
+                copy_file(item, docs_dir / "charts" / "all" / item.name)
+
+    report_sources = [
+        EVIDENCE_DIR / "submission_summary.json",
+        EVIDENCE_DIR / "reports" / "basic_llm_vs_polyguard_report.json",
+        EVIDENCE_DIR / "reports" / "policy_ablation_report.json",
+        EVIDENCE_DIR / "reports" / "basic_llm_failure_cases.md",
+        EVIDENCE_DIR / "reports" / "action_traces.jsonl",
+        SWEEP_REPORT_DIR / "qwen-qwen2-5-3b-instruct" / "grpo_trl_run.json",
+        SWEEP_REPORT_DIR / "qwen-qwen2-5-3b-instruct" / "postsave_inference_grpo.json",
+        SWEEP_REPORT_DIR / "qwen-qwen2-5-3b-instruct" / "grpo_ablation_report.json",
+    ]
+    for source in report_sources:
+        copy_file(source, docs_dir / "reports" / source.name)
+
+    write_json(docs_dir / "manifest.json", manifest)
+    write_text(docs_dir / "README.md", final_docs_readme(manifest))
+
+
+def final_docs_readme(manifest: dict[str, Any]) -> str:
+    availability = manifest["artifact_availability"]
+    rows = []
+    for run_id, data in availability.items():
+        rows.append(
+            "| {label} | {sft} | {grpo} | {checkpoints} | {reports} | {status} |".format(
+                label=data["label"],
+                sft="yes" if data["sft_adapter"]["exists"] else "missing",
+                grpo="yes" if data["grpo_adapter"]["exists"] else "missing",
+                checkpoints="yes" if data["checkpoint_tree"]["exists"] else "missing",
+                reports="yes" if data["reports"]["exists"] else "missing",
+                status=data["status"],
+            )
+        )
+    return """# PolyGuard Final Submission Evidence
+
+This folder is the current curated evidence set for the final submission. It
+replaces the earlier Qwen 0.5B/1.5B-only view with a single location for the
+best charts, reports, action traces, and model-artifact availability.
+
+## Hugging Face Artifact Space
+
+- Space: [{space_id}](https://huggingface.co/spaces/{space_id})
+- Download command:
+
+```bash
+HF_TOKEN=<token> ./.venv/bin/hf download {space_id} --repo-type space --local-dir ./hf_final_artifacts
+```
+
+## Artifact Availability
+
+| Model | SFT adapter | GRPO adapter | Checkpoints | Reports | Status |
+| --- | --- | --- | --- | --- | --- |
+{rows}
+
+Qwen 0.5B and 1.5B currently have SFT histories/reports and post-save SFT
+evidence in this repository, but no downloadable SFT/GRPO adapter directories
+were present in the local checkout or authenticated artifact repos at packaging
+time. Qwen 3B has both SFT and GRPO adapters, checkpoint metadata/intermediate
+checkpoints, GRPO history, post-save GRPO inference, and policy ablation
+evidence.
+
+## Frontpage Charts
+
+- `charts/frontpage/00_sft_vs_grpo_reward_by_model.png`
+- `charts/frontpage/01_basic_llm_vs_full_pipeline_reward.png`
+- `charts/frontpage/02_reward_delta_by_seed.png`
+- `charts/frontpage/03_policy_ablation_reward.png`
+- `charts/frontpage/04_reward_components.png`
+- `charts/frontpage/05_train_holdout_gap.png`
+- `charts/frontpage/06_inference_latency_validity.png`
+- `charts/frontpage/07_sft_vs_grpo_reward.png`
+- `charts/frontpage/08_sft_loss_by_model.png`
+- `charts/frontpage/09_qwen_3b_grpo_reward_curve.png`
+
+## Improvement Evidence
+
+- Basic LLM proxy vs full PolyGuard pipeline reward delta:
+  `{delta}` average reward.
+- Full pipeline legality rate: `{pipeline_legality}`.
+- Basic LLM failure/exploit rate: `{basic_failure_rate}`.
+- Full pipeline failure/exploit rate: `{pipeline_failure_rate}`.
+
+Reward values in the tracked API/reports remain numeric and clamped to
+`[0.001, 0.999]` at three decimal precision.
+""".format(
+        space_id=manifest["space_id"],
+        rows="\n".join(rows),
+        delta=manifest.get("basic_vs_pipeline", {}).get("reward_delta"),
+        pipeline_legality=manifest.get("basic_vs_pipeline", {}).get("pipeline_legality"),
+        basic_failure_rate=manifest.get("basic_vs_pipeline", {}).get("basic_failure_rate"),
+        pipeline_failure_rate=manifest.get("basic_vs_pipeline", {}).get("pipeline_failure_rate"),
+    )
+
+
+def build_space(space_dir: Path, manifest: dict[str, Any]) -> None:
+    if space_dir.exists():
+        shutil.rmtree(space_dir)
+    space_dir.mkdir(parents=True)
+    write_text(
+        space_dir / "README.md",
+        """---
+title: PolyGuard Final Artifacts
+sdk: static
+pinned: false
+---
+
+# PolyGuard Final Artifacts
+
+This Space stores the final PolyGuard evidence bundle and the available trained
+adapter artifacts. It is separate from the training Spaces and does not run
+training.
+
+Open `index.html` or inspect the `artifacts/`, `reports/`, and `evidence/`
+folders in the Space file browser.
+""",
+    )
+    write_text(
+        space_dir / ".gitattributes",
+        """*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+""",
+    )
+    write_json(space_dir / "manifest.json", manifest)
+
+    evidence_target = space_dir / "evidence" / "final_submission_evidence"
+    copy_tree(Path(manifest["docs_dir"]), evidence_target)
+
+    for run_id in RUNS:
+        checkpoint_dir = SWEEP_CHECKPOINT_DIR / run_id
+        report_dir = SWEEP_REPORT_DIR / run_id
+        if checkpoint_dir.exists():
+            copy_tree(checkpoint_dir, space_dir / "checkpoints" / run_id)
+        for stage in ["sft_adapter", "grpo_adapter"]:
+            source = checkpoint_dir / stage
+            if source.exists():
+                copy_tree(source, space_dir / "artifacts" / run_id / stage)
+        if report_dir.exists():
+            copy_tree(report_dir, space_dir / "reports" / run_id)
+
+    write_text(space_dir / "index.html", index_html(manifest))
+
+
+def index_html(manifest: dict[str, Any]) -> str:
+    rows = []
+    for run_id, data in manifest["artifact_availability"].items():
+        rows.append(
+            "<tr><td>{label}</td><td>{sft}</td><td>{grpo}</td><td>{checkpoints}</td><td>{reports}</td><td>{status}</td></tr>".format(
+                label=html.escape(data["label"]),
+                sft="available" if data["sft_adapter"]["exists"] else "missing",
+                grpo="available" if data["grpo_adapter"]["exists"] else "missing",
+                checkpoints="available" if data["checkpoint_tree"]["exists"] else "missing",
+                reports="available" if data["reports"]["exists"] else "missing",
+                status=html.escape(data["status"]),
+            )
+        )
+    return """<!doctype html>
+<html lang="en">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1" />
+  <title>PolyGuard Final Artifacts</title>
+  <style>
+    body {{ font-family: Inter, system-ui, -apple-system, BlinkMacSystemFont, "Segoe UI", sans-serif; margin: 40px; line-height: 1.5; color: #17212b; }}
+    table {{ border-collapse: collapse; width: 100%; margin: 20px 0; }}
+    th, td {{ border-bottom: 1px solid #d8dee4; padding: 10px; text-align: left; }}
+    code {{ background: #f4f6f8; padding: 2px 5px; border-radius: 4px; }}
+    .grid {{ display: grid; grid-template-columns: repeat(auto-fit, minmax(260px, 1fr)); gap: 16px; }}
+    .panel {{ border: 1px solid #d8dee4; padding: 16px; border-radius: 6px; }}
+  </style>
+</head>
+<body>
+  <h1>PolyGuard Final Artifacts</h1>
+  <p>This Space stores the final evidence bundle and available trained adapters. It does not retrain models.</p>
+  <table>
+    <thead><tr><th>Model</th><th>SFT adapter</th><th>GRPO adapter</th><th>Checkpoints</th><th>Reports</th><th>Status</th></tr></thead>
+    <tbody>{rows}</tbody>
+  </table>
+  <div class="grid">
+    <div class="panel"><strong>Evidence</strong><br /><code>evidence/final_submission_evidence/</code></div>
+    <div class="panel"><strong>Adapters</strong><br /><code>artifacts/qwen-qwen2-5-3b-instruct/</code></div>
+    <div class="panel"><strong>Checkpoints</strong><br /><code>checkpoints/qwen-qwen2-5-3b-instruct/</code></div>
+    <div class="panel"><strong>Reports</strong><br /><code>reports/</code></div>
+    <div class="panel"><strong>Manifest</strong><br /><code>manifest.json</code></div>
+  </div>
+</body>
+</html>
+""".format(rows="\n".join(rows))
+
+
+def deploy_space(space_id: str, space_dir: Path, public: bool) -> None:
+    token = os.getenv("HF_TOKEN")
+    if not token:
+        raise SystemExit("HF_TOKEN is required for --deploy")
+    api = HfApi(token=token)
+    api.create_repo(
+        repo_id=space_id,
+        repo_type="space",
+        space_sdk="static",
+        private=not public,
+        exist_ok=True,
+    )
+    ignore_patterns = [".DS_Store", "**/.DS_Store", "__pycache__/*", "*.pyc", ".cache/*", ".cache/**"]
+    if dir_size(space_dir) > 100 * 1024 * 1024:
+        api.upload_folder(
+            repo_id=space_id,
+            repo_type="space",
+            folder_path=str(space_dir),
+            commit_message="Upload PolyGuard final evidence and adapters",
+            ignore_patterns=ignore_patterns + ["checkpoints/*", "checkpoints/**"],
+        )
+        checkpoint_root = space_dir / "checkpoints"
+        for run_dir in sorted(path for path in checkpoint_root.glob("*") if path.is_dir()):
+            for file_path in sorted(path for path in run_dir.iterdir() if path.is_file()):
+                api.upload_file(
+                    repo_id=space_id,
+                    repo_type="space",
+                    path_or_fileobj=str(file_path),
+                    path_in_repo=f"checkpoints/{run_dir.name}/{file_path.name}",
+                    commit_message=f"Upload {run_dir.name} checkpoint metadata",
+                )
+            for subdir in sorted(path for path in run_dir.iterdir() if path.is_dir()):
+                nested_dirs = sorted(path for path in subdir.iterdir() if path.is_dir())
+                if nested_dirs:
+                    for file_path in sorted(path for path in subdir.iterdir() if path.is_file()):
+                        api.upload_file(
+                            repo_id=space_id,
+                            repo_type="space",
+                            path_or_fileobj=str(file_path),
+                            path_in_repo=f"checkpoints/{run_dir.name}/{subdir.name}/{file_path.name}",
+                            commit_message=f"Upload {run_dir.name} {subdir.name} metadata",
+                        )
+                    for nested in nested_dirs:
+                        api.upload_folder(
+                            repo_id=space_id,
+                            repo_type="space",
+                            folder_path=str(nested),
+                            path_in_repo=f"checkpoints/{run_dir.name}/{subdir.name}/{nested.name}",
+                            commit_message=f"Upload {run_dir.name} {subdir.name}/{nested.name}",
+                            ignore_patterns=ignore_patterns,
+                        )
+                else:
+                    api.upload_folder(
+                        repo_id=space_id,
+                        repo_type="space",
+                        folder_path=str(subdir),
+                        path_in_repo=f"checkpoints/{run_dir.name}/{subdir.name}",
+                        commit_message=f"Upload {run_dir.name} {subdir.name}",
+                        ignore_patterns=ignore_patterns,
+                    )
+    else:
+        api.upload_folder(
+            repo_id=space_id,
+            repo_type="space",
+            folder_path=str(space_dir),
+            commit_message="Upload PolyGuard final evidence and trained adapters",
+            ignore_patterns=ignore_patterns,
+        )
+
+
+def main() -> None:
+    args = parse_args()
+    docs_dir = Path(args.docs_dir)
+    space_dir = Path(args.space_dir)
+
+    summary = load_json(EVIDENCE_DIR / "submission_summary.json", {})
+    basic = load_json(EVIDENCE_DIR / "reports" / "basic_llm_vs_polyguard_report.json", {})
+    basic_summary = basic.get("summaries", {})
+    manifest = {
+        "status": "ok",
+        "space_id": args.space_id,
+        "space_url": f"https://huggingface.co/spaces/{args.space_id}",
+        "docs_dir": str(docs_dir.relative_to(ROOT) if docs_dir.is_relative_to(ROOT) else docs_dir),
+        "evidence_source": str(EVIDENCE_DIR.relative_to(ROOT)),
+        "artifact_availability": artifact_availability(),
+        "submission_models": summary.get("models", []),
+        "basic_vs_pipeline": {
+            "reward_delta": basic.get("pipeline_minus_basic_reward_delta"),
+            "basic_reward": basic_summary.get("basic_llm", {}).get("avg_reward"),
+            "pipeline_reward": basic_summary.get("full_polyguard_pipeline", {}).get("avg_reward"),
+            "basic_failure_rate": basic_summary.get("basic_llm", {}).get("exploit_or_failure_rate"),
+            "pipeline_failure_rate": basic_summary.get("full_polyguard_pipeline", {}).get("exploit_or_failure_rate"),
+            "pipeline_legality": basic_summary.get("full_polyguard_pipeline", {}).get("legality_rate"),
+        },
+        "download_command": (
+            f"HF_TOKEN=<token> ./.venv/bin/hf download {args.space_id} "
+            "--repo-type space --local-dir ./hf_final_artifacts"
+        ),
+        "notes": [
+            "Packaging-only run; no retraining is performed.",
+            "Qwen 3B has SFT and GRPO adapter directories plus checkpoint metadata/intermediate checkpoints in this artifact Space.",
+            "Qwen 0.5B and 1.5B adapter directories were not present locally or in the checked artifact repos; reports remain included.",
+        ],
+    }
+
+    if not args.skip_docs:
+        build_docs(docs_dir, manifest)
+        manifest = load_json(docs_dir / "manifest.json", manifest)
+    build_space(space_dir, manifest)
+
+    if args.deploy:
+        deploy_space(args.space_id, space_dir, public=args.public)
+
+    print(json.dumps({"status": "ok", "space_url": manifest["space_url"], "space_dir": str(space_dir), "docs_dir": str(docs_dir)}, indent=2))
+
+
+if __name__ == "__main__":
+    main()
diff --git a/scripts/deploy_space_api.py b/scripts/deploy_space_api.py
index dff44b4073becdc6b55ab57d6d0d1f2330b631d4..6be2858d78a40074992044e818390b7c0e8353bf 100644
--- a/scripts/deploy_space_api.py
+++ b/scripts/deploy_space_api.py
@@ -8,9 +8,8 @@ still shipping the same OpenEnv/FastAPI runtime.
 from __future__ import annotations
 
 import argparse
-import shutil
-import subprocess
 from pathlib import Path
+import shutil
 
 from huggingface_hub import HfApi
 
@@ -18,18 +17,6 @@ from huggingface_hub import HfApi
 ROOT = Path(__file__).resolve().parents[1]
 
 
-def _git_revision() -> str:
-    try:
-        return subprocess.check_output(
-            ["git", "rev-parse", "--short", "HEAD"],
-            cwd=str(ROOT),
-            stderr=subprocess.DEVNULL,
-            text=True,
-        ).strip()
-    except (subprocess.CalledProcessError, FileNotFoundError, OSError):
-        return "unknown"
-
-
 def parse_args() -> argparse.Namespace:
     parser = argparse.ArgumentParser(description="Deploy PolyGuard OpenEnv Space with valid HF metadata.")
     parser.add_argument("--repo-id", default="TheJackBright/polyguard-openenv")
@@ -77,8 +64,7 @@ def build_bundle(bundle_dir: Path) -> None:
                 "colorFrom: blue",
                 "colorTo: green",
                 "sdk: docker",
-                # Must match nginx / EXPOSE in Dockerfile (Space UI + /api proxy); 8100/8200 are loopback-only.
-                "app_port: 7860",
+                "app_port: 8100",
                 "pinned: false",
                 "---",
                 "",
@@ -97,9 +83,6 @@ def main() -> None:
         print(f"bundle_dir={bundle_dir}")
         return
 
-    rev = _git_revision()
-    commit_message = f"Deploy PolyGuard OpenEnv Space (polyguard-rl @ {rev})"
-
     api = HfApi()
     api.create_repo(
         repo_id=args.repo_id,
@@ -112,7 +95,7 @@ def main() -> None:
         repo_id=args.repo_id,
         repo_type="space",
         folder_path=str(bundle_dir),
-        commit_message=commit_message,
+        commit_message="Deploy PolyGuard OpenEnv Space",
         ignore_patterns=[
             ".git/*",
             ".venv/*",
@@ -126,11 +109,6 @@ def main() -> None:
     print(f"space_url=https://huggingface.co/spaces/{args.repo_id}")
     print(f"runtime_url=https://{args.repo_id.replace('/', '-').lower()}.hf.space")
     print(f"bundle_dir={bundle_dir}")
-    print(f"deployed_src_revision={rev}")
-    print(
-        "If the live UI still looks old: open the Space → Settings → Factory reboot, "
-        "or hard-refresh the browser (Vite hashes usually bust cache after rebuild)."
-    )
 
 
 if __name__ == "__main__":
diff --git a/scripts/render_diagram_images.py b/scripts/render_diagram_images.py
new file mode 100644
index 0000000000000000000000000000000000000000..f756bc0b9e85302eec82896e0e6fb867c318edbd
--- /dev/null
+++ b/scripts/render_diagram_images.py
@@ -0,0 +1,713 @@
+#!/usr/bin/env python3
+"""Render polished PolyGuard architecture diagrams as individual PNG charts."""
+
+from __future__ import annotations
+
+import math
+import textwrap
+from dataclasses import dataclass
+from pathlib import Path
+from typing import Iterable
+
+from PIL import Image, ImageDraw, ImageFont
+
+
+ROOT = Path(__file__).resolve().parents[1]
+OUT_DIR = ROOT / "docs" / "assets" / "diagrams"
+
+FONT_REGULAR = "/System/Library/Fonts/Supplemental/Arial.ttf"
+FONT_BOLD = "/System/Library/Fonts/Supplemental/Arial Bold.ttf"
+
+BG = "#f6f8fb"
+INK = "#172033"
+MUTED = "#64748b"
+LINE = "#718096"
+WHITE = "#ffffff"
+
+BLUE = ("#eaf3ff", "#2563eb")
+VIOLET = ("#f3edff", "#7c3aed")
+TEAL = ("#e8f8f2", "#0f766e")
+AMBER = ("#fff5df", "#b45309")
+ROSE = ("#fff1f3", "#e11d48")
+SLATE = ("#eef2f7", "#475569")
+MINT = ("#e7f7fb", "#0891b2")
+
+
+@dataclass(frozen=True)
+class Rect:
+    x: int
+    y: int
+    w: int
+    h: int
+
+
+def font(size: int, bold: bool = False) -> ImageFont.FreeTypeFont:
+    path = FONT_BOLD if bold else FONT_REGULAR
+    return ImageFont.truetype(path, size)
+
+
+def text_size(draw: ImageDraw.ImageDraw, text: str, fnt: ImageFont.FreeTypeFont) -> tuple[int, int]:
+    if not text:
+        return 0, 0
+    box = draw.textbbox((0, 0), text, font=fnt)
+    return box[2] - box[0], box[3] - box[1]
+
+
+def wrap_lines(draw: ImageDraw.ImageDraw, text: str, fnt: ImageFont.FreeTypeFont, max_width: int) -> list[str]:
+    lines: list[str] = []
+    for part in text.split("\n"):
+        if not part.strip():
+            lines.append("")
+            continue
+        words = part.split()
+        current = ""
+        for word in words:
+            candidate = word if not current else f"{current} {word}"
+            if text_size(draw, candidate, fnt)[0] <= max_width:
+                current = candidate
+            else:
+                if current:
+                    lines.append(current)
+                    current = word
+                else:
+                    chunks = textwrap.wrap(word, width=max(8, max_width // max(1, fnt.size)))
+                    lines.extend(chunks[:-1])
+                    current = chunks[-1] if chunks else word
+        if current:
+            lines.append(current)
+    return lines
+
+
+def draw_centered_lines(
+    draw: ImageDraw.ImageDraw,
+    lines: Iterable[str],
+    fnt: ImageFont.FreeTypeFont,
+    x: int,
+    y: int,
+    w: int,
+    fill: str = INK,
+    line_gap: int = 7,
+) -> int:
+    yy = y
+    for line in lines:
+        tw, th = text_size(draw, line, fnt)
+        draw.text((x + (w - tw) / 2, yy), line, font=fnt, fill=fill)
+        yy += th + line_gap
+    return yy
+
+
+def rounded(
+    draw: ImageDraw.ImageDraw,
+    rect: Rect,
+    fill: str,
+    outline: str = "#d5deea",
+    width: int = 2,
+    radius: int = 22,
+    shadow: bool = True,
+) -> None:
+    if shadow:
+        shadow_rect = (rect.x + 8, rect.y + 10, rect.x + rect.w + 8, rect.y + rect.h + 10)
+        draw.rounded_rectangle(shadow_rect, radius=radius, fill="#dfe6ef")
+    draw.rounded_rectangle(
+        (rect.x, rect.y, rect.x + rect.w, rect.y + rect.h),
+        radius=radius,
+        fill=fill,
+        outline=outline,
+        width=width,
+    )
+
+
+def anchor(rect: Rect, side: str) -> tuple[int, int]:
+    if side == "top":
+        return rect.x + rect.w // 2, rect.y
+    if side == "bottom":
+        return rect.x + rect.w // 2, rect.y + rect.h
+    if side == "left":
+        return rect.x, rect.y + rect.h // 2
+    if side == "right":
+        return rect.x + rect.w, rect.y + rect.h // 2
+    return rect.x + rect.w // 2, rect.y + rect.h // 2
+
+
+def arrow(
+    draw: ImageDraw.ImageDraw,
+    points: list[tuple[int, int]],
+    color: str = LINE,
+    width: int = 4,
+    label: str | None = None,
+    label_offset: tuple[int, int] = (0, -26),
+) -> None:
+    draw.line(points, fill=color, width=width, joint="curve")
+    if len(points) < 2:
+        return
+    x1, y1 = points[-2]
+    x2, y2 = points[-1]
+    angle = math.atan2(y2 - y1, x2 - x1)
+    size = 17
+    left = (x2 - size * math.cos(angle - math.pi / 7), y2 - size * math.sin(angle - math.pi / 7))
+    right = (x2 - size * math.cos(angle + math.pi / 7), y2 - size * math.sin(angle + math.pi / 7))
+    draw.polygon([(x2, y2), left, right], fill=color)
+    if label:
+        mx = (x1 + x2) // 2 + label_offset[0]
+        my = (y1 + y2) // 2 + label_offset[1]
+        fnt = font(22, bold=True)
+        tw, th = text_size(draw, label, fnt)
+        pad_x, pad_y = 12, 6
+        draw.rounded_rectangle(
+            (mx - tw / 2 - pad_x, my - pad_y, mx + tw / 2 + pad_x, my + th + pad_y),
+            radius=12,
+            fill=WHITE,
+            outline="#dbe3ee",
+        )
+        draw.text((mx - tw / 2, my), label, font=fnt, fill=color)
+
+
+class Chart:
+    def __init__(self, width: int, height: int, title: str, subtitle: str = "") -> None:
+        self.width = width
+        self.height = height
+        self.image = Image.new("RGB", (width, height), BG)
+        self.draw = ImageDraw.Draw(self.image)
+        self.title(title, subtitle)
+
+    def title(self, title: str, subtitle: str = "") -> None:
+        self.draw.rectangle((0, 0, self.width, 14), fill="#1d4ed8")
+        self.draw.text((76, 54), title, font=font(58, bold=True), fill=INK)
+        if subtitle:
+            self.draw.text((78, 126), subtitle, font=font(26), fill=MUTED)
+
+    def group(self, rect: Rect, title: str, palette: tuple[str, str]) -> None:
+        fill, accent = palette
+        rounded(self.draw, rect, fill=fill, outline="#cbd5e1", width=2, radius=30, shadow=False)
+        self.draw.rounded_rectangle(
+            (rect.x, rect.y, rect.x + rect.w, rect.y + 64),
+            radius=30,
+            fill=accent,
+        )
+        self.draw.rectangle((rect.x, rect.y + 34, rect.x + rect.w, rect.y + 64), fill=accent)
+        self.draw.text((rect.x + 26, rect.y + 18), title, font=font(26, bold=True), fill=WHITE)
+
+    def box(
+        self,
+        rect: Rect,
+        title: str,
+        body: str = "",
+        palette: tuple[str, str] = SLATE,
+        title_size: int = 25,
+        body_size: int = 20,
+        center: bool = True,
+    ) -> Rect:
+        fill, accent = palette
+        rounded(self.draw, rect, fill=WHITE, outline="#cbd5e1", width=2, radius=20, shadow=True)
+        self.draw.rounded_rectangle((rect.x, rect.y, rect.x + 10, rect.y + rect.h), radius=20, fill=accent)
+        title_font = font(title_size, bold=True)
+        body_font = font(body_size)
+        max_width = rect.w - 46
+        title_lines = wrap_lines(self.draw, title, title_font, max_width)
+        body_lines = wrap_lines(self.draw, body, body_font, max_width) if body else []
+        title_height = sum(text_size(self.draw, line, title_font)[1] for line in title_lines) + max(0, len(title_lines) - 1) * 7
+        body_height = sum(text_size(self.draw, line, body_font)[1] for line in body_lines) + max(0, len(body_lines) - 1) * 6
+        gap = 10 if body_lines else 0
+        total = title_height + body_height + gap
+        yy = rect.y + max(18, (rect.h - total) // 2) if center else rect.y + 20
+        if center:
+            yy = draw_centered_lines(self.draw, title_lines, title_font, rect.x + 22, yy, max_width, INK)
+            if body_lines:
+                yy += gap
+                draw_centered_lines(self.draw, body_lines, body_font, rect.x + 22, yy, max_width, MUTED, line_gap=6)
+        else:
+            self.draw.multiline_text((rect.x + 28, yy), "\n".join(title_lines), font=title_font, fill=INK, spacing=7)
+            yy += title_height + gap
+            if body_lines:
+                self.draw.multiline_text((rect.x + 28, yy), "\n".join(body_lines), font=body_font, fill=MUTED, spacing=6)
+        return rect
+
+    def pill(self, rect: Rect, text: str, palette: tuple[str, str], size: int = 21) -> Rect:
+        fill, accent = palette
+        self.draw.rounded_rectangle(
+            (rect.x, rect.y, rect.x + rect.w, rect.y + rect.h),
+            radius=rect.h // 2,
+            fill=fill,
+            outline=accent,
+            width=2,
+        )
+        lines = wrap_lines(self.draw, text, font(size, bold=True), rect.w - 28)
+        total_h = len(lines) * (size + 6)
+        draw_centered_lines(self.draw, lines, font(size, bold=True), rect.x + 14, rect.y + (rect.h - total_h) // 2, rect.w - 28, INK, line_gap=4)
+        return rect
+
+    def save(self, name: str) -> Path:
+        OUT_DIR.mkdir(parents=True, exist_ok=True)
+        path = OUT_DIR / f"{name}.png"
+        self.image.save(path, quality=96)
+        return path
+
+
+def system_architecture() -> Path:
+    c = Chart(
+        2400,
+        1500,
+        "PolyGuard System Architecture",
+        "Research environment, policy stack, OpenEnv runtime, model artifacts, and evidence outputs.",
+    )
+    clients = Rect(110, 190, 2180, 190)
+    api = Rect(110, 440, 2180, 190)
+    agents = Rect(110, 690, 2180, 260)
+    runtime = Rect(110, 1015, 1050, 300)
+    assets = Rect(1240, 1015, 1050, 300)
+    for rect, title, pal in [
+        (clients, "User And Integration Surfaces", BLUE),
+        (api, "API And OpenEnv Surface", VIOLET),
+        (agents, "Multi-Agent Policy Stack", TEAL),
+        (runtime, "OpenEnv Runtime And Rewards", AMBER),
+        (assets, "Data, Models, And Evidence Outputs", MINT),
+    ]:
+        c.group(rect, title, pal)
+
+    client_boxes = [
+        c.box(Rect(185, 275, 390, 78), "React Patient Workbench", palette=BLUE),
+        c.box(Rect(665, 275, 350, 78), "Public HF Space", palette=BLUE),
+        c.box(Rect(1105, 275, 380, 78), "One-Run Notebook / CLI", palette=BLUE),
+        c.box(Rect(1575, 275, 365, 78), "OpenEnv Validator", palette=BLUE),
+    ]
+    api_boxes = [
+        c.box(Rect(260, 530, 330, 72), "app/api/routes.py", palette=VIOLET, title_size=21),
+        c.box(Rect(720, 530, 300, 72), "APIService", palette=VIOLET, title_size=21),
+        c.box(Rect(1180, 530, 370, 72), "PolicyProviderRouter", palette=VIOLET, title_size=21),
+        c.box(Rect(1680, 530, 350, 72), "app/env/fastapi_app.py", palette=VIOLET, title_size=20),
+    ]
+    top_agents = [
+        c.box(Rect(215 + i * 405, 780, 285, 60), name, palette=TEAL, title_size=19)
+        for i, name in enumerate(["MedRec", "Evidence", "Graph Safety", "Dosing", "Candidate"])
+    ]
+    bottom_agents = [
+        c.box(Rect(420 + i * 405, 865, 285, 60), name, palette=TEAL if name != "Contextual Bandit" else AMBER, title_size=19)
+        for i, name in enumerate(["Supervisor", "Planner", "Contextual Bandit", "Critic", "Explainer"])
+    ]
+    runtime_boxes = [
+        c.box(Rect(185, 1110, 300, 78), "PolyGuardEnv", "stateful reset / step", palette=AMBER, title_size=22),
+        c.box(Rect(545, 1110, 240, 78), "Verifier", "legality gates", palette=AMBER, title_size=21),
+        c.box(Rect(845, 1110, 240, 78), "Reward Router", "13 components", palette=AMBER, title_size=21),
+        c.box(Rect(345, 1215, 240, 66), "Transition", palette=AMBER, title_size=20),
+        c.box(Rect(645, 1215, 240, 66), "Anti-Cheat", palette=AMBER, title_size=20),
+    ]
+    asset_boxes = [
+        c.box(Rect(1305, 1100, 215, 68), "Scenarios", palette=MINT, title_size=20),
+        c.box(Rect(1560, 1100, 250, 68), "Drug Knowledge", palette=MINT, title_size=20),
+        c.box(Rect(1850, 1100, 250, 68), "Active Qwen", "adapter / merged", palette=MINT, title_size=20),
+        c.box(Rect(1305, 1215, 215, 68), "Retrieval Index", palette=MINT, title_size=20),
+        c.box(Rect(1560, 1215, 250, 68), "Evaluation Suites", palette=MINT, title_size=20),
+        c.box(Rect(1850, 1215, 250, 68), "docs/results", "charts + reports", palette=MINT, title_size=20),
+    ]
+
+    for a, b in zip(api_boxes, api_boxes[1:]):
+        arrow(c.draw, [anchor(a, "right"), anchor(b, "left")], color="#7c3aed")
+    for a, b in zip(top_agents, top_agents[1:]):
+        arrow(c.draw, [anchor(a, "right"), anchor(b, "left")], color="#0f766e", width=3)
+    c.pill(Rect(990, 845, 420, 44), "routed planning and critique", TEAL, size=18)
+    for a, b in zip(bottom_agents, bottom_agents[1:]):
+        arrow(c.draw, [anchor(a, "right"), anchor(b, "left")], color="#0f766e", width=3)
+    arrow(c.draw, [anchor(runtime_boxes[0], "right"), anchor(runtime_boxes[1], "left")], color="#b45309")
+    arrow(c.draw, [anchor(runtime_boxes[1], "right"), anchor(runtime_boxes[2], "left")], color="#b45309")
+    arrow(c.draw, [anchor(runtime_boxes[0], "bottom"), anchor(runtime_boxes[3], "top")], color="#b45309")
+    arrow(c.draw, [anchor(runtime_boxes[2], "bottom"), anchor(runtime_boxes[4], "top")], color="#b45309")
+    arrow(c.draw, [anchor(asset_boxes[0], "right"), anchor(asset_boxes[1], "left")], color="#0891b2")
+    arrow(c.draw, [anchor(asset_boxes[1], "right"), anchor(asset_boxes[2], "left")], color="#0891b2")
+    arrow(c.draw, [anchor(asset_boxes[3], "right"), anchor(asset_boxes[4], "left")], color="#475569")
+    arrow(c.draw, [anchor(asset_boxes[4], "right"), anchor(asset_boxes[5], "left")], color="#475569")
+    arrow(c.draw, [(1200, 380), (1200, 440)], color="#3b82f6", label="requests")
+    arrow(c.draw, [(1200, 630), (1200, 690)], color="#7c3aed", label="orchestrates")
+    arrow(c.draw, [(760, 950), (760, 1015)], color="#0f766e", label="safe action")
+    arrow(c.draw, [(1725, 950), (1725, 1015)], color="#0891b2", label="model + evidence")
+    arrow(c.draw, [(1160, 1165), (1240, 1165)], color="#64748b", label="reports")
+    return c.save("system_architecture")
+
+
+def runtime_step_flow() -> Path:
+    c = Chart(2400, 1320, "Runtime Step Flow", "How one reset or action moves through UI, API, policy, environment, and reward scoring.")
+    actors = [
+        ("User", 130, BLUE),
+        ("React Workbench", 430, BLUE),
+        ("FastAPI APIService", 760, VIOLET),
+        ("Orchestrator", 1100, TEAL),
+        ("PolyGuardEnv", 1440, AMBER),
+        ("Policy Provider", 1780, MINT),
+        ("Reward Router", 2090, ROSE),
+    ]
+    x_positions: dict[str, int] = {}
+    for name, x, pal in actors:
+        rect = c.box(Rect(x, 210, 220, 82), name, palette=pal, title_size=22)
+        x_positions[name] = rect.x + rect.w // 2
+        c.draw.line((x_positions[name], 315, x_positions[name], 1185), fill="#d0d9e6", width=3)
+
+    def msg(y: int, src: str, dst: str, label: str, color: str = LINE) -> None:
+        sx, dx = x_positions[src], x_positions[dst]
+        arrow(c.draw, [(sx, y), (dx, y)], color=color, width=4, label=label, label_offset=(0, -34))
+
+    msg(390, "User", "React Workbench", "reset / run")
+    msg(500, "React Workbench", "FastAPI APIService", "POST /env/reset")
+    msg(610, "FastAPI APIService", "PolyGuardEnv", "reset(seed, task)", "#b45309")
+    msg(720, "PolyGuardEnv", "FastAPI APIService", "observation + candidates", "#b45309")
+    msg(830, "React Workbench", "FastAPI APIService", "step_candidate or orchestrate")
+    msg(940, "FastAPI APIService", "Orchestrator", "agent path", "#0f766e")
+    msg(1050, "Orchestrator", "Policy Provider", "optional Qwen selection", "#0891b2")
+    msg(1160, "Orchestrator", "PolyGuardEnv", "final action", "#0f766e")
+    msg(1020, "PolyGuardEnv", "Reward Router", "13 components -> 4 channels", "#e11d48")
+    c.box(Rect(1290, 1160, 430, 90), "Response", "observation, reward, done, trace, info", palette=SLATE)
+    arrow(c.draw, [(1440 + 110, 1120), (1505, 1160)], color="#64748b")
+    arrow(c.draw, [(1290, 1205), (650, 1205), (650, 900)], color="#64748b", label="render updated panels", label_offset=(0, 16))
+    return c.save("runtime_step_flow")
+
+
+def data_training_pipeline() -> Path:
+    c = Chart(2400, 1320, "Data And Training Pipeline", "From local knowledge and synthetic cases to SFT, GRPO, activation, and inference.")
+    groups = [
+        (Rect(90, 220, 430, 880), "Sources", BLUE),
+        (Rect(610, 220, 520, 880), "DataOps", TEAL),
+        (Rect(1220, 220, 520, 880), "Post-Training", VIOLET),
+        (Rect(1830, 220, 480, 880), "Validation And Use", AMBER),
+    ]
+    for rect, title, pal in groups:
+        c.group(rect, title, pal)
+    sources = [
+        c.box(Rect(150, 325, 310, 76), "Local drug knowledge", palette=BLUE, title_size=21),
+        c.box(Rect(150, 435, 310, 76), "Synthetic patients", palette=BLUE, title_size=21),
+        c.box(Rect(150, 545, 310, 76), "Scenario files", "easy / medium / hard", palette=BLUE, title_size=21),
+        c.box(Rect(150, 655, 310, 76), "Optional HF data", palette=BLUE, title_size=21),
+        c.box(Rect(150, 765, 310, 76), "DDI API", "optional", palette=BLUE, title_size=21),
+        c.box(Rect(150, 875, 310, 76), "Web fallback", "optional", palette=BLUE, title_size=21),
+    ]
+    dataops = [
+        c.box(Rect(700, 330, 340, 78), "Normalize drugs", palette=TEAL, title_size=22),
+        c.box(Rect(700, 465, 340, 78), "Build knowledge graph", palette=TEAL, title_size=22),
+        c.box(Rect(700, 600, 340, 78), "Build retrieval index", palette=TEAL, title_size=22),
+        c.box(Rect(700, 735, 340, 78), "Build scenarios", palette=TEAL, title_size=22),
+        c.box(Rect(700, 870, 340, 90), "Build SFT / GRPO corpus", palette=TEAL, title_size=22),
+    ]
+    training = [
+        c.box(Rect(1310, 345, 340, 86), "TRL SFT adapter", palette=VIOLET, title_size=22),
+        c.box(Rect(1310, 505, 340, 86), "TRL GRPO", "environment reward", palette=VIOLET, title_size=22),
+        c.box(Rect(1310, 665, 340, 86), "Merge / export adapters", palette=VIOLET, title_size=22),
+        c.box(Rect(1310, 825, 340, 86), "Registry + manifests", palette=VIOLET, title_size=22),
+    ]
+    validation = [
+        c.box(Rect(1905, 345, 310, 86), "Post-save inference", palette=AMBER, title_size=22),
+        c.box(Rect(1905, 505, 310, 86), "Activate model", palette=AMBER, title_size=22),
+        c.box(Rect(1905, 665, 310, 86), "/policy/model_status", palette=AMBER, title_size=21),
+        c.box(Rect(1905, 825, 310, 86), "/policy/infer", palette=AMBER, title_size=21),
+    ]
+    for src in sources:
+        arrow(c.draw, [anchor(src, "right"), anchor(dataops[-1], "left")], color="#3b82f6", width=3)
+    for a, b in zip(dataops, dataops[1:]):
+        arrow(c.draw, [anchor(a, "bottom"), anchor(b, "top")], color="#0f766e")
+    arrow(c.draw, [anchor(dataops[-1], "right"), anchor(training[0], "left")], color="#7c3aed", label="corpus")
+    for a, b in zip(training, training[1:]):
+        arrow(c.draw, [anchor(a, "bottom"), anchor(b, "top")], color="#7c3aed")
+    arrow(c.draw, [anchor(training[-1], "right"), anchor(validation[0], "left")], color="#b45309", label="artifact")
+    for a, b in zip(validation, validation[1:]):
+        arrow(c.draw, [anchor(a, "bottom"), anchor(b, "top")], color="#b45309")
+    return c.save("data_training_pipeline")
+
+
+def multi_agent_orchestration() -> Path:
+    c = Chart(2400, 1250, "Multi-Agent Orchestration", "Specialized agents build a verified candidate, route it through policy control, then close the loop with reward feedback.")
+    input_group = Rect(90, 250, 560, 850)
+    decision_group = Rect(760, 250, 780, 850)
+    closure_group = Rect(1650, 250, 660, 850)
+    for rect, title, pal in [
+        (input_group, "Candidate Construction", BLUE),
+        (decision_group, "Policy Control", VIOLET),
+        (closure_group, "Step Closure", AMBER),
+    ]:
+        c.group(rect, title, pal)
+
+    inputs = [
+        c.box(Rect(210, 360, 320, 72), "State", palette=BLUE, title_size=22),
+        c.box(Rect(210, 465, 320, 72), "MedRec", palette=TEAL, title_size=22),
+        c.box(Rect(210, 570, 320, 72), "Evidence", palette=TEAL, title_size=22),
+        c.box(Rect(210, 675, 320, 72), "Graph Safety", palette=TEAL, title_size=22),
+        c.box(Rect(210, 780, 320, 72), "Dosing", palette=TEAL, title_size=22),
+        c.box(Rect(210, 885, 320, 82), "Candidate", "legal action set", palette=TEAL, title_size=22),
+    ]
+    for a, b in zip(inputs, inputs[1:]):
+        arrow(c.draw, [anchor(a, "bottom"), anchor(b, "top")], color="#0f766e", width=3)
+
+    supervisor = c.box(Rect(1020, 360, 260, 82), "Supervisor", "routes context", palette=TEAL, title_size=22)
+    bandit = c.box(Rect(850, 525, 250, 82), "Bandit Top-K", "policy shortlist", palette=AMBER, title_size=22)
+    planner = c.box(Rect(1190, 525, 250, 82), "Planner", "drafts action", palette=VIOLET, title_size=22)
+    critic = c.box(Rect(1190, 700, 250, 82), "Critic", "checks action", palette=ROSE, title_size=22)
+    replan = c.box(Rect(850, 700, 250, 82), "Review / Replan", "on veto", palette=ROSE, title_size=22)
+    c.pill(Rect(850, 915, 590, 74), "coordination: supervisor routing | veto loop | lightweight debate", SLATE, size=21)
+
+    env_step = c.box(Rect(1855, 370, 250, 84), "Env Step", "apply transition", palette=AMBER, title_size=22)
+    explainer = c.box(Rect(1855, 540, 250, 84), "Explainer", "grounded rationale", palette=TEAL, title_size=22)
+    reward = c.box(Rect(1855, 710, 250, 84), "Reward + Trace", "step feedback", palette=SLATE, title_size=22)
+    update = c.box(Rect(1855, 880, 250, 84), "Bandit Update", "learn from reward", palette=AMBER, title_size=22)
+
+    arrow(c.draw, [anchor(inputs[-1], "right"), (705, 926), (705, 401), anchor(supervisor, "left")], color="#2563eb", label="candidate")
+    arrow(c.draw, [anchor(supervisor, "bottom"), (1150, 485), anchor(bandit, "top")], color="#b45309")
+    arrow(c.draw, [anchor(supervisor, "bottom"), (1150, 485), anchor(planner, "top")], color="#7c3aed")
+    arrow(c.draw, [anchor(bandit, "right"), anchor(planner, "left")], color="#b45309")
+    arrow(c.draw, [anchor(planner, "bottom"), anchor(critic, "top")], color="#7c3aed")
+    arrow(c.draw, [anchor(critic, "left"), anchor(replan, "right")], color="#e11d48", label="veto")
+    arrow(c.draw, [anchor(replan, "top"), (975, 650), (1315, 650), anchor(planner, "bottom")], color="#e11d48")
+    arrow(c.draw, [anchor(critic, "right"), anchor(env_step, "left")], color="#0f766e", label="approved")
+    arrow(c.draw, [anchor(env_step, "bottom"), anchor(explainer, "top")], color="#0f766e")
+    arrow(c.draw, [anchor(explainer, "bottom"), anchor(reward, "top")], color="#64748b")
+    arrow(c.draw, [anchor(reward, "bottom"), anchor(update, "top")], color="#b45309")
+    arrow(c.draw, [anchor(update, "left"), (1585, 922), (1585, 1055), (800, 1055), (800, 566), anchor(bandit, "left")], color="#b45309", label="reward learning", label_offset=(-170, 10))
+    return c.save("multi_agent_orchestration")
+
+
+def reward_decomposition() -> Path:
+    c = Chart(2500, 1420, "Reward Decomposition", "Verifier-backed rewards remain inspectable through component columns and judge-friendly primary channels.")
+    action = c.box(Rect(930, 210, 640, 92), "Candidate action", "selected legal candidate or fallback", palette=BLUE)
+    checks = c.box(Rect(800, 360, 900, 94), "Verifier + Transition + Anti-Cheat + Uncertainty", palette=VIOLET, title_size=25)
+    arrow(c.draw, [anchor(action, "bottom"), anchor(checks, "top")], color="#7c3aed")
+    channel_specs = [
+        (
+            Rect(140, 575, 500, 455),
+            "safety_legality",
+            "legal and safe action choice",
+            ["format compliance", "candidate alignment", "legality", "safety delta"],
+            ROSE,
+        ),
+        (
+            Rect(730, 575, 500, 455),
+            "clinical_improvement",
+            "clinical risk moves in the right direction",
+            ["burden improvement", "disease stability"],
+            TEAL,
+        ),
+        (
+            Rect(1320, 575, 500, 455),
+            "dosing_quality",
+            "dose-sensitive decisions are handled",
+            ["dosing quality"],
+            AMBER,
+        ),
+        (
+            Rect(1910, 575, 500, 455),
+            "process_integrity",
+            "process, uncertainty, and anti-cheat safeguards",
+            ["abstention quality", "efficiency", "process fidelity", "explanation grounding", "anti-cheat", "uncertainty calibration"],
+            VIOLET,
+        ),
+    ]
+    channels: list[Rect] = []
+    for rect, title, subtitle, components, pal in channel_specs:
+        c.group(rect, title, pal)
+        subtitle_font = font(21)
+        lines = wrap_lines(c.draw, subtitle, subtitle_font, rect.w - 64)
+        c.draw.multiline_text((rect.x + 32, rect.y + 86), "\n".join(lines), font=subtitle_font, fill=MUTED, spacing=5)
+        compact = len(components) > 4
+        y = rect.y + (148 if compact else 155)
+        pill_h = 42 if compact else 54
+        step = 50 if compact else 66
+        for item in components:
+            c.pill(Rect(rect.x + 44, y, rect.w - 88, pill_h), item, pal, size=17 if compact else 19)
+            y += step
+        channels.append(rect)
+        arrow(c.draw, [anchor(checks, "bottom"), (rect.x + rect.w // 2, 520), anchor(rect, "top")], color=pal[1], width=3)
+    total = c.box(Rect(930, 1230, 640, 102), "total_reward", "clamped to 0.001 - 0.999", palette=BLUE, title_size=28)
+    for ch in channels:
+        arrow(c.draw, [anchor(ch, "bottom"), anchor(total, "top")], color="#2563eb", width=3)
+    return c.save("reward_decomposition")
+
+
+def episode_state_machine() -> Path:
+    c = Chart(2250, 1120, "Episode State Machine", "Terminal reasons are explicit, making rollouts auditable and reward hacking visible.")
+    nodes = {
+        "Start": c.box(Rect(100, 520, 190, 82), "Start", palette=BLUE),
+        "Reset": c.box(Rect(390, 520, 190, 82), "Reset", palette=BLUE),
+        "Observe": c.box(Rect(680, 520, 220, 82), "Observe", palette=TEAL),
+        "Select": c.box(Rect(1020, 500, 260, 122), "Candidate Selection", palette=TEAL),
+        "Verify": c.box(Rect(1420, 500, 240, 122), "Verification", palette=VIOLET),
+        "Transition": c.box(Rect(1810, 395, 245, 90), "Transition", palette=TEAL),
+        "Rollback": c.box(Rect(1810, 610, 245, 90), "Rollback", palette=ROSE),
+        "Reward": c.box(Rect(1450, 820, 250, 96), "Reward Scoring", palette=AMBER),
+        "Continue": c.box(Rect(980, 820, 250, 96), "Continue", palette=SLATE),
+        "Done": c.box(Rect(1950, 820, 220, 96), "Done", palette=BLUE),
+    }
+    chain = ["Start", "Reset", "Observe", "Select", "Verify"]
+    for a, b in zip(chain, chain[1:]):
+        arrow(c.draw, [anchor(nodes[a], "right"), anchor(nodes[b], "left")], color="#475569")
+    arrow(c.draw, [anchor(nodes["Verify"], "right"), anchor(nodes["Transition"], "left")], color="#0f766e", label="legal")
+    arrow(c.draw, [anchor(nodes["Verify"], "right"), (1725, 560), anchor(nodes["Rollback"], "left")], color="#e11d48", label="blocked")
+    arrow(c.draw, [anchor(nodes["Transition"], "bottom"), (1930, 780), anchor(nodes["Reward"], "right")], color="#b45309")
+    arrow(c.draw, [anchor(nodes["Rollback"], "bottom"), (1930, 780), anchor(nodes["Reward"], "right")], color="#b45309")
+    arrow(c.draw, [anchor(nodes["Reward"], "left"), anchor(nodes["Continue"], "right")], color="#64748b", label="budget remains")
+    arrow(c.draw, [anchor(nodes["Continue"], "top"), (1105, 690), (790, 690), anchor(nodes["Observe"], "bottom")], color="#64748b")
+    reasons = ["safe resolution", "review escalation", "exploit detected", "timeout", "budget exhausted"]
+    for i, reason in enumerate(reasons):
+        y = 760 + i * 50
+        c.pill(Rect(1735, y, 175, 36), reason, SLATE, size=16)
+        arrow(c.draw, [(1910, y + 18), anchor(nodes["Done"], "left")], color="#2563eb", width=2)
+    return c.save("episode_state_machine")
+
+
+def deployment_topology() -> Path:
+    c = Chart(2400, 1380, "Deployment Topology", "Local services, public product Space, private training Space, and artifact exchange on Hugging Face Hub.")
+    local = Rect(100, 245, 580, 830)
+    product = Rect(810, 245, 600, 350)
+    training = Rect(810, 725, 600, 350)
+    hub = Rect(1540, 245, 760, 830)
+    for rect, title, pal in [
+        (local, "Local Developer Machine", BLUE),
+        (product, "Public Product Space", TEAL),
+        (training, "Private Training Space", VIOLET),
+        (hub, "Hugging Face Hub", AMBER),
+    ]:
+        c.group(rect, title, pal)
+    repo = c.box(Rect(240, 365, 300, 86), "polyguard-rl repo", palette=BLUE, title_size=22)
+    local_runtime = c.box(Rect(165, 545, 210, 82), "Local API", ":8200", palette=VIOLET, title_size=21)
+    local_env = c.box(Rect(405, 545, 210, 82), "OpenEnv", ":8201", palette=AMBER, title_size=21)
+    vite = c.box(Rect(165, 695, 210, 82), "Vite UI", ":5173", palette=BLUE, title_size=21)
+    checks = c.box(Rect(405, 695, 210, 82), "Checks", "pytest / validate / gate", palette=SLATE, title_size=21)
+    space_bundle = c.box(Rect(955, 365, 310, 84), "Product Docker Bundle", palette=TEAL, title_size=22)
+    product_runtime = c.box(Rect(890, 500, 205, 76), "FastAPI Runtime", palette=TEAL, title_size=19)
+    product_ui = c.box(Rect(1135, 500, 205, 76), "React Workbench", palette=TEAL, title_size=19)
+    train_bundle = c.box(Rect(955, 845, 310, 84), "Training Docker Space", palette=VIOLET, title_size=22)
+    runner = c.box(Rect(890, 980, 205, 76), "Gradio Runner", palette=VIOLET, title_size=19)
+    gpu = c.box(Rect(1135, 980, 205, 76), "HF GPU A10G", palette=VIOLET, title_size=19)
+    product_repo = c.box(Rect(1625, 360, 265, 86), "Product Space Repo", "polyguard-openenv", palette=AMBER, title_size=21)
+    training_repo = c.box(Rect(1975, 360, 240, 86), "Training Space Repo", palette=AMBER, title_size=21)
+    artifact_repo = c.box(Rect(1625, 610, 265, 86), "Artifact Repo", "adapters / reports", palette=AMBER, title_size=21)
+    evidence_repo = c.box(Rect(1975, 610, 240, 86), "Evidence Space", palette=AMBER, title_size=21)
+    docs = c.box(Rect(1780, 850, 275, 86), "Local docs/results", "pulled evidence", palette=SLATE, title_size=21)
+    for target in [local_runtime, local_env, vite, checks]:
+        arrow(c.draw, [anchor(repo, "bottom"), anchor(target, "top")], color="#2563eb")
+    arrow(c.draw, [anchor(repo, "right"), anchor(space_bundle, "left")], color="#0f766e", label="deploy product")
+    arrow(c.draw, [anchor(repo, "right"), (745, 885), anchor(train_bundle, "left")], color="#7c3aed", label="deploy training")
+    arrow(c.draw, [anchor(space_bundle, "right"), anchor(product_repo, "left")], color="#0f766e")
+    arrow(c.draw, [anchor(space_bundle, "bottom"), anchor(product_runtime, "top")], color="#0f766e")
+    arrow(c.draw, [anchor(space_bundle, "bottom"), anchor(product_ui, "top")], color="#0f766e")
+    arrow(c.draw, [anchor(train_bundle, "right"), anchor(training_repo, "left")], color="#7c3aed")
+    arrow(c.draw, [anchor(train_bundle, "bottom"), anchor(runner, "top")], color="#7c3aed")
+    arrow(c.draw, [anchor(runner, "right"), anchor(gpu, "left")], color="#7c3aed")
+    arrow(c.draw, [anchor(runner, "right"), anchor(artifact_repo, "left")], color="#b45309", label="upload")
+    arrow(c.draw, [anchor(artifact_repo, "right"), anchor(evidence_repo, "left")], color="#b45309")
+    arrow(c.draw, [anchor(artifact_repo, "bottom"), anchor(docs, "top")], color="#64748b", label="pull")
+    return c.save("deployment_topology")
+
+
+def evidence_generation_flow() -> Path:
+    c = Chart(2300, 980, "Evidence Generation Flow", "Training outputs are converted into reviewer-facing reports, plots, bundles, and README claims.")
+    train = c.box(Rect(100, 435, 250, 96), "SFT / GRPO Runs", palette=VIOLET)
+    reports = c.box(Rect(465, 320, 260, 90), "Run Reports", palette=AMBER)
+    checkpoints = c.box(Rect(465, 560, 260, 90), "Adapters + Merged Artifacts", palette=AMBER, title_size=22)
+    pull = c.box(Rect(850, 435, 260, 96), "Pull Training Artifacts", palette=BLUE)
+    post = c.box(Rect(1250, 260, 290, 90), "Post-Save Inference", palette=TEAL)
+    ablations = c.box(Rect(1250, 435, 290, 90), "Policy-Stack Ablations", palette=TEAL)
+    benchmarks = c.box(Rect(1250, 610, 290, 90), "Benchmarks + Robustness", palette=TEAL)
+    charts = c.box(Rect(1655, 435, 210, 90), "Charts", palette=ROSE)
+    results = c.box(Rect(1955, 320, 260, 80), "docs/results", palette=SLATE, title_size=22)
+    bundle = c.box(Rect(1955, 455, 260, 80), "Submission Bundle", palette=SLATE, title_size=22)
+    readme = c.box(Rect(1955, 590, 260, 80), "README Claims", palette=SLATE, title_size=22)
+    arrow(c.draw, [anchor(train, "right"), anchor(reports, "left")], color="#b45309")
+    arrow(c.draw, [anchor(train, "right"), anchor(checkpoints, "left")], color="#b45309")
+    arrow(c.draw, [anchor(reports, "right"), anchor(pull, "left")], color="#2563eb")
+    arrow(c.draw, [anchor(checkpoints, "right"), anchor(pull, "left")], color="#2563eb")
+    for target in [post, ablations, benchmarks]:
+        arrow(c.draw, [anchor(pull, "right"), anchor(target, "left")], color="#0f766e")
+        arrow(c.draw, [anchor(target, "right"), anchor(charts, "left")], color="#e11d48")
+    arrow(c.draw, [anchor(charts, "right"), anchor(results, "left")], color="#64748b")
+    arrow(c.draw, [anchor(charts, "right"), anchor(bundle, "left")], color="#64748b")
+    arrow(c.draw, [anchor(charts, "right"), anchor(readme, "left")], color="#64748b")
+    return c.save("evidence_generation_flow")
+
+
+def frontend_runtime_surface() -> Path:
+    c = Chart(2300, 1350, "Frontend Runtime Surface", "React pages map to concrete FastAPI endpoints used by the Patient Workbench and supporting views.")
+    pages_group = Rect(100, 245, 560, 965)
+    api_group = Rect(780, 245, 720, 965)
+    runtime_group = Rect(1640, 245, 560, 965)
+    c.group(pages_group, "React App Pages", BLUE)
+    c.group(api_group, "API Endpoints", TEAL)
+    c.group(runtime_group, "Backend Runtime", VIOLET)
+    app = c.box(Rect(230, 365, 300, 90), "React App", palette=BLUE)
+    pages = [
+        c.box(Rect(190, 525, 340, 78), "Patient Workbench", palette=BLUE, title_size=21),
+        c.box(Rect(190, 665, 340, 78), "Policy Lab", palette=BLUE, title_size=21),
+        c.box(Rect(190, 805, 340, 78), "Safety + Dosing Views", palette=BLUE, title_size=21),
+        c.box(Rect(190, 945, 340, 78), "Replay + Training Views", palette=BLUE, title_size=21),
+    ]
+    c.pill(Rect(190, 1090, 340, 48), "shared fetchJson client", BLUE, size=18)
+    arrow(c.draw, [anchor(app, "bottom"), anchor(pages[0], "top")], color="#2563eb", width=3)
+    for a, b in zip(pages, pages[1:]):
+        arrow(c.draw, [anchor(a, "bottom"), anchor(b, "top")], color="#2563eb", width=3)
+
+    endpoint_cards = [
+        c.box(
+            Rect(900, 485, 470, 116),
+            "Session + Step",
+            "POST /env/reset\nPOST /env/step_candidate",
+            palette=TEAL,
+            title_size=22,
+            body_size=18,
+        ),
+        c.box(
+            Rect(900, 655, 470, 132),
+            "Policy + Safety",
+            "POST /agents/orchestrate\nGET /env/reward_breakdown\nGET /policy/model_status",
+            palette=TEAL,
+            title_size=22,
+            body_size=17,
+        ),
+        c.box(
+            Rect(900, 850, 470, 116),
+            "Evaluation",
+            "POST /eval/run_baselines\nPOST /eval/run_dosing",
+            palette=TEAL,
+            title_size=22,
+            body_size=18,
+        ),
+        c.box(
+            Rect(900, 1035, 470, 116),
+            "Trace + Metrics",
+            "GET /env/trace\nGET /metrics/training",
+            palette=TEAL,
+            title_size=22,
+            body_size=18,
+        ),
+    ]
+    for page, endpoint in zip(pages, endpoint_cards):
+        arrow(c.draw, [anchor(page, "right"), anchor(endpoint, "left")], color="#0f766e", width=3)
+    c.pill(Rect(945, 1170, 380, 48), "all calls use API_BASE", TEAL, size=18)
+
+    api = c.box(Rect(1785, 395, 270, 96), "FastAPI API", palette=VIOLET)
+    env = c.box(Rect(1785, 610, 270, 96), "PolyGuardEnv", palette=AMBER)
+    policy = c.box(Rect(1785, 825, 270, 96), "Policy Runtime", palette=MINT)
+    evals = c.box(Rect(1785, 1040, 270, 96), "Eval + Metrics", palette=SLATE)
+    arrow(c.draw, [anchor(api_group, "right"), anchor(api, "left")], color="#7c3aed", width=4, label="fetchJson")
+    arrow(c.draw, [anchor(api, "bottom"), anchor(env, "top")], color="#b45309")
+    arrow(c.draw, [anchor(env, "bottom"), anchor(policy, "top")], color="#0891b2")
+    arrow(c.draw, [anchor(policy, "bottom"), anchor(evals, "top")], color="#64748b")
+    return c.save("frontend_runtime_surface")
+
+
+RENDERERS = [
+    system_architecture,
+    runtime_step_flow,
+    data_training_pipeline,
+    multi_agent_orchestration,
+    reward_decomposition,
+    episode_state_machine,
+    deployment_topology,
+    evidence_generation_flow,
+    frontend_runtime_surface,
+]
+
+
+def main() -> None:
+    OUT_DIR.mkdir(parents=True, exist_ok=True)
+    for existing in OUT_DIR.glob("*.png"):
+        existing.unlink()
+    rendered = [renderer() for renderer in RENDERERS]
+    print("rendered_diagrams:")
+    for path in rendered:
+        print(path.relative_to(ROOT))
+
+
+if __name__ == "__main__":
+    main()